搜索引擎工作原理

2017-01-19 分類(lèi)：網(wǎng)站建設(shè)

在互聯(lián)網(wǎng)時(shí)代，搜索引擎可以說(shuō)是日常生活的一部分。不僅如此，搜索引擎歷經(jīng)20多年的風(fēng)霜雨雪，仍然牢牢占據(jù)著流量入口，不得不讓人感嘆。

而且，提起搜索引擎，我們都會(huì)想到一家高大上的巨無(wú)霸公司和一家被黑出xiang的巨霸公司。足以見(jiàn)得搜索引擎的巨大作用。

作為產(chǎn)品人，對(duì)此當(dāng)然不能視而不見(jiàn)，也應(yīng)該了解了解其工作原理。

搜索引擎工作原理大致可以分為3個(gè)步驟

1. 爬行與抓取

2. 預(yù)處理

3. 排序

所謂一圖勝千言，沒(méi)圖我說(shuō)個(gè)……

PS：上圖總結(jié)自《SEO實(shí)戰(zhàn)密碼》。

下面詳細(xì)敘述：

爬行與抓取

簡(jiǎn)單地說(shuō)：就是搜索引擎蜘蛛沿著互聯(lián)網(wǎng)絡(luò)爬行并抓取其爬行的頁(yè)面，將這些抓取的頁(yè)面存儲(chǔ)起來(lái)。

說(shuō)到這，你可能會(huì)問(wèn)：為什么叫「蜘蛛」？

為了抓取盡量多的頁(yè)面，搜索引擎會(huì)跟蹤頁(yè)面上的鏈接，從一個(gè)頁(yè)面爬行到下一個(gè)頁(yè)面，好像蜘蛛在蜘蛛網(wǎng)上爬行那樣，這就是搜索引擎蜘蛛這個(gè)名稱(chēng)的由來(lái)。

搜索引擎在跟蹤網(wǎng)絡(luò)上的鏈接時(shí)，會(huì)使用一定策略，因?yàn)楝F(xiàn)在的網(wǎng)絡(luò)鏈接太多。最簡(jiǎn)單的爬行遍歷策略有兩種，一種是深度優(yōu)先，一種是廣度優(yōu)先。

還有一點(diǎn)值得一提：搜索引擎訪問(wèn)網(wǎng)站頁(yè)面時(shí) 類(lèi)似于普通用戶(hù)使用的瀏覽器。搜索引擎蜘蛛抓取的數(shù)據(jù)存入原始頁(yè)面數(shù)據(jù)庫(kù)，其中的頁(yè)面數(shù)據(jù)與用戶(hù)瀏覽器得到的HTML完全一樣。

預(yù)處理

由于抓取的頁(yè)面數(shù)量太大（以”億”為單位），無(wú)法快速實(shí)時(shí)排序，所以需要預(yù)處理。這就是產(chǎn)品設(shè)計(jì)中的「復(fù)雜性守恒原則」，我們沒(méi)辦法讓用戶(hù)等待十幾秒甚至更久，就只能在后臺(tái)處理上下功夫。

在一些資料中，「預(yù)處理」也被稱(chēng)為「索引」，因?yàn)椤杆饕故穷A(yù)處理最主要的內(nèi)容。

預(yù)處理的過(guò)程比較復(fù)雜，值得一提的有這么幾點(diǎn)：

去重：對(duì)于內(nèi)容相似度高的，搜索引擎不喜歡，因?yàn)橛脩?hù)不喜歡這樣的內(nèi)容。而且，搜索引擎的去重算法很可能不止于頁(yè)面級(jí)別，而是進(jìn)行到段落級(jí)別。因此，混合不同文章、交叉調(diào)換段落順序也不能使轉(zhuǎn)載和抄襲變成原創(chuàng)。所以，少抄襲，多原創(chuàng)吧。

正向索引：可以簡(jiǎn)稱(chēng)為「索引」。通過(guò)這個(gè)步驟，搜索引擎將頁(yè)面及關(guān)鍵詞形成詞表結(jié)構(gòu)存儲(chǔ)進(jìn)索引庫(kù)。簡(jiǎn)化的索引詞表形式如下。你看，這樣就得到了每個(gè)文件（如每個(gè)頁(yè)面）的對(duì)應(yīng)關(guān)鍵詞。這樣用戶(hù)就能搜索了嗎？還不行。

倒排索引：正向索引雖然提供了文件與關(guān)鍵詞的對(duì)應(yīng)關(guān)系，但無(wú)奈用戶(hù)搜索的是關(guān)鍵詞，因此搜索引擎還需根據(jù)這些對(duì)應(yīng)關(guān)系找到某關(guān)鍵詞對(duì)應(yīng)的文件，這樣的計(jì)算量無(wú)法滿(mǎn)足實(shí)時(shí)返回排名結(jié)果的要求。因此，還需要倒排索引。倒排索引與正向索引剛好相反，它以關(guān)鍵詞為關(guān)鍵，簡(jiǎn)單來(lái)說(shuō)如下表：

得到了倒排索引，就能很快地根據(jù)用戶(hù)搜索的關(guān)鍵詞找到對(duì)應(yīng)文件，但這樣就夠了嗎？別天真啊。

通過(guò)上述步驟，其實(shí)只得到了頁(yè)面本身的內(nèi)容。說(shuō)白了，就是頁(yè)面本身告訴搜索引擎自己如何如何。

俗話說(shuō)：王婆賣(mài)瓜，自賣(mài)自夸。

就像我們網(wǎng)購(gòu)時(shí)不僅會(huì)看店家給的商品介紹，還會(huì)看看買(mǎi)家的評(píng)論一樣，頁(yè)面內(nèi)容質(zhì)量，也需要其他人的評(píng)價(jià)——這里的「其他人」指「其他頁(yè)面。」所以，我們還需要鏈接關(guān)系計(jì)算。

鏈接關(guān)系計(jì)算：每個(gè)頁(yè)面上都有鏈接，不同頁(yè)面之間用鏈接互相關(guān)聯(lián)起來(lái)，這些關(guān)聯(lián)關(guān)系，就形成了其他頁(yè)面對(duì)某個(gè)頁(yè)面的評(píng)價(jià)。這些復(fù)雜的鏈接指向關(guān)系形成了網(wǎng)站和頁(yè)面的鏈接權(quán)重。

排名

發(fā)現(xiàn)沒(méi)有：排名，是用戶(hù)是用戶(hù)唯一能感覺(jué)到的步驟，爬行與抓取、預(yù)處理，都在后臺(tái)完成。正因如此，用戶(hù)才會(huì)感到用起來(lái)十分快捷。

排名的過(guò)程也比較復(fù)雜，其中值得一提的有如下幾點(diǎn)：

搜索詞處理：說(shuō)白了，就是處理用戶(hù)輸入的關(guān)鍵詞。這一步對(duì)用戶(hù)來(lái)說(shuō)更為關(guān)鍵，因?yàn)樗阉饕孢€不夠智能，需要我們?nèi)W(xué)習(xí)一些高級(jí)指令，以獲得更為精準(zhǔn)的內(nèi)容。

但由于每個(gè)關(guān)鍵詞對(duì)應(yīng)的文件數(shù)量都可能是巨大的（如幾億個(gè)），處理如此龐大的數(shù)據(jù)量，無(wú)法滿(mǎn)足用戶(hù)對(duì)「快」的需求。同時(shí)，用戶(hù)并不需要所有內(nèi)容，他們往往只查看前幾頁(yè)內(nèi)容，甚至很多用戶(hù)只查看第一頁(yè)的前幾條內(nèi)容。因此，選擇一定數(shù)量的內(nèi)容進(jìn)行處理，很有必要。這就涉及到選擇初識(shí)子集。

但如何選擇呢？這是一個(gè)問(wèn)題。

選擇初識(shí)子集：選擇出示子集，關(guān)鍵在于「權(quán)重」。所以說(shuō)權(quán)重有多重要，即使頁(yè)面做得好，但權(quán)重不高，連做備胎的機(jī)會(huì)都沒(méi)有。

相關(guān)性計(jì)算：這是排名過(guò)程中最重要的一步，最終搜索結(jié)果頁(yè)面的排名基本按照相關(guān)性從高到低排序。

但到此就結(jié)束了嗎？還沒(méi)有哦。

排名過(guò)濾及調(diào)整：為了保證用戶(hù)搜索結(jié)果更符合用戶(hù)需求，搜索引擎需要過(guò)濾掉那些處心積慮鉆空子的頁(yè)面，在這一步，搜索引擎會(huì)找出這些頁(yè)面并施加懲罰。典型的例子是百度的11位。所以，過(guò)度優(yōu)化有風(fēng)險(xiǎn)。

查詢(xún)及點(diǎn)擊日志：通過(guò)這一步，搜索引擎記錄了用戶(hù)的一些數(shù)據(jù)，從而為后續(xù)的優(yōu)化提供依據(jù)。這和產(chǎn)品日常工作中的數(shù)據(jù)埋點(diǎn)有些相似。

網(wǎng)頁(yè)標(biāo)題：搜索引擎工作原理
URL標(biāo)題：http://www.bm7419.com/news47/72697.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供App設(shè)計(jì)、商城網(wǎng)站、網(wǎng)站建設(shè)、域名注冊(cè)、品牌網(wǎng)站建設(shè)、網(wǎng)站維護(hù)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容