學(xué)seo從了解搜索引擎工作方式開(kāi)始

2023-04-04    分類(lèi): 網(wǎng)站建設(shè)

一個(gè)好的seoer,那必需得清楚的知道搜索引擎是如何工作的?用戶(hù)在搜索一個(gè)關(guān)鍵詞的時(shí)候,搜索引擎都做了哪些工作?本文就此展開(kāi)。

濟(jì)南網(wǎng)絡(luò)優(yōu)化公司本文將講解以下三個(gè)方面的內(nèi)容,帶你了解搜索引擎的工作方式:

抓取

索引

查詢(xún)

抓取

下面的這張圖,應(yīng)該用過(guò)搜索引擎的人都非常的熟悉。

我們重點(diǎn)關(guān)注的是紅框里面的玩意,我們可以看到,搜索“seo”的時(shí)候,百度為我們找到了四千多萬(wàn)的結(jié)果。那么這些結(jié)果是怎么來(lái)的呢?

在您搜索之前,搜索引擎的抓取工具會(huì)從數(shù)千億個(gè)網(wǎng)頁(yè)中收集信息,然后在搜索索引中進(jìn)行整理,最后展現(xiàn)給用戶(hù)。

一般的,搜索引擎在你搜索某個(gè)關(guān)鍵詞之前啊,都會(huì)先派一批小弟在互聯(lián)網(wǎng)中到處的抓取各種類(lèi)型的網(wǎng)頁(yè),只要能抓到都抓了。那抓取的流程是怎么樣的呢?

抓取流程是從以往所抓取內(nèi)容的網(wǎng)址列表和由網(wǎng)站所有者提供的站點(diǎn)地圖開(kāi)始的。在訪問(wèn)這些網(wǎng)站時(shí),我們的抓取工具會(huì)使用網(wǎng)站上的鏈接來(lái)探索其他網(wǎng)頁(yè)。該軟件會(huì)特別關(guān)注新網(wǎng)站、對(duì)現(xiàn)有網(wǎng)站進(jìn)行的更改以及無(wú)效鏈接。計(jì)算機(jī)程序會(huì)確定要抓取的網(wǎng)站、抓取頻率以及要從每個(gè)網(wǎng)站中抓取的網(wǎng)頁(yè)數(shù)量。

谷歌的抓取流程百度的也差不多。

那么抓到的網(wǎng)頁(yè)放在哪里呢?

肯定的是放在搜索引擎的服務(wù)器上面了。一般的只會(huì)存放網(wǎng)頁(yè)的文字信息,至于其它的資源,比如圖片、音視頻、js、css這些是不做存儲(chǔ)的。只會(huì)記錄相關(guān)的信息。

注:更詳細(xì)的內(nèi)容,將會(huì)在后續(xù)的重學(xué)seo系列課程中詳細(xì)介紹

那么抓取到內(nèi)容只會(huì)該怎么處理呢?

索引

當(dāng)抓取工具找到一個(gè)網(wǎng)頁(yè)時(shí),我們的系統(tǒng)就會(huì)像瀏覽器一樣呈現(xiàn)該網(wǎng)頁(yè)的內(nèi)容。我們會(huì)記下關(guān)鍵信號(hào)(從關(guān)鍵字到網(wǎng)站新鮮度),然后會(huì)在 搜索引擎搜索索引中跟蹤所有這些內(nèi)容。

搜索索引中包含數(shù)千億個(gè)網(wǎng)頁(yè),其大小遠(yuǎn)遠(yuǎn)超過(guò) 1 億千兆字節(jié)。它就像圖書(shū)后部的索引一樣 - 編入索引的每個(gè)網(wǎng)頁(yè)上出現(xiàn)的每個(gè)字詞都對(duì)應(yīng)著一個(gè)條目。在將某個(gè)網(wǎng)頁(yè)編入索引時(shí),系統(tǒng)會(huì)將該網(wǎng)頁(yè)分別添加到其包含的所有字詞的對(duì)應(yīng)條目中。

借助知識(shí)圖譜,我們將繼續(xù)超越關(guān)鍵字匹配,以更好地了解您關(guān)注的人、地點(diǎn)和事物。為此,我們不僅要整理有關(guān)網(wǎng)頁(yè)的信息,還要整理其他類(lèi)型的信息。如今, 搜索引擎不僅可幫助您搜索大型圖書(shū)館內(nèi)數(shù)百萬(wàn)冊(cè)圖書(shū)中的內(nèi)容,查找當(dāng)?shù)毓还镜木€路和車(chē)次安排,還可幫助您瀏覽世界銀行等公開(kāi)來(lái)源的數(shù)據(jù)。

注:其實(shí)在索引之前還是一個(gè)分析的步驟,還有做各種其他很多的工作,比如去重,提取正文,鏈接分析等等。搜索引擎用到的索引技術(shù)主要就是倒排索引技術(shù)。更詳細(xì)的內(nèi)容,且看后面的系列課程。

接下來(lái),當(dāng)我們搜索一個(gè)關(guān)鍵詞的時(shí)候,搜索引擎都干了些什么?

查詢(xún)

第一步:分析你的關(guān)鍵詞

理解搜索字詞的含義對(duì)于返回優(yōu)質(zhì)結(jié)果至關(guān)重要。因此,為了找到包含相關(guān)信息的頁(yè)面,搜索引擎的第一步就是分析您的搜索查詢(xún)中的字詞的含義。搜索引擎創(chuàng)建了語(yǔ)言模型,試圖了解應(yīng)該使用關(guān)鍵詞的哪些部分在索引中進(jìn)行查詢(xún)。

這會(huì)涉及到看起來(lái)如同解析拼寫(xiě)錯(cuò)誤一樣簡(jiǎn)單的步驟,并會(huì)擴(kuò)展到通過(guò)將自然語(yǔ)言理解方面的部分最新研究成果付諸應(yīng)用來(lái)嘗試?yán)斫饽斎氲牟樵?xún)的類(lèi)型。

(錯(cuò)別字糾正)

第二步:與搜索內(nèi)容相符

接下來(lái),搜索引擎會(huì)尋找包含與相應(yīng)查詢(xún)匹配的信息的網(wǎng)頁(yè)。當(dāng)您搜索時(shí),在最基本的層面上,搜索算法會(huì)在索引中查詢(xún)您的搜索關(guān)鍵詞以找到適當(dāng)?shù)木W(wǎng)頁(yè)。這些算法會(huì)分析相關(guān)關(guān)鍵字在某個(gè)網(wǎng)頁(yè)上(不論是在標(biāo)題中還是在正文中)的出現(xiàn)頻率和顯示位置。

當(dāng)某個(gè)網(wǎng)頁(yè)中包含與您的搜索查詢(xún)內(nèi)容相同的關(guān)鍵字時(shí),這是表示搜索到的信息可能與您要查找的內(nèi)容相關(guān)的最基本信號(hào)。如果網(wǎng)頁(yè)或者文本的標(biāo)題或正文中出現(xiàn)這些關(guān)鍵字,則表示該信息與您要查找的內(nèi)容相關(guān)的可能性更大了。除了簡(jiǎn)單的關(guān)鍵字匹配之外,搜索引擎還使用經(jīng)過(guò)匯總和匿名化處理的互動(dòng)數(shù)據(jù)來(lái)評(píng)估搜索結(jié)果是否與查詢(xún)內(nèi)容相關(guān)。搜索引擎會(huì)將這些數(shù)據(jù)轉(zhuǎn)換為信號(hào),以協(xié)助機(jī)器學(xué)習(xí)系統(tǒng)更好地評(píng)估相關(guān)性。

除了匹配關(guān)鍵字,搜索引擎的算法還會(huì)尋找線索來(lái)衡量潛在搜索結(jié)果能從多大程度上滿(mǎn)足用戶(hù)的搜索需求。當(dāng)您搜索“狗”時(shí),您想看到的應(yīng)該不是含有數(shù)百個(gè)“狗”字的網(wǎng)頁(yè)。搜索引擎會(huì)盡力確定網(wǎng)頁(yè)是否包含與您的查詢(xún)對(duì)應(yīng)的答案(而非只是重復(fù)您的查詢(xún))。因此,搜索算法會(huì)分析網(wǎng)頁(yè)是否包含相關(guān)內(nèi)容,例如狗的圖片、視頻,甚至是品種列表。最后,搜索引擎會(huì)檢查網(wǎng)頁(yè)所用的語(yǔ)言是否與您的查詢(xún)所用的語(yǔ)言相同,以便優(yōu)先顯示采用您的選語(yǔ)言的網(wǎng)頁(yè)。

需要說(shuō)明的是,盡管搜索引擎的系統(tǒng)確實(shí)會(huì)通過(guò)尋找這類(lèi)可量化的信號(hào)來(lái)評(píng)估相關(guān)性,但并不會(huì)因此用于分析主觀觀念,例如分析網(wǎng)頁(yè)內(nèi)容的觀點(diǎn)或政治傾向。

第三步:為實(shí)用(有價(jià)值)網(wǎng)頁(yè)排名

對(duì)于一項(xiàng)典型的查詢(xún),含有可能相關(guān)的信息的網(wǎng)頁(yè)會(huì)多達(dá)數(shù)千個(gè)甚至數(shù)百萬(wàn)個(gè)。因此,為了幫助將最符合需求的網(wǎng)頁(yè)排在靠前的位置,搜索引擎編寫(xiě)了算法來(lái)評(píng)估這些網(wǎng)頁(yè)的實(shí)用性。

這些算法會(huì)分析數(shù)百種不同的因素 - 從內(nèi)容的新鮮度,到您的搜索關(guān)鍵詞的出現(xiàn)次數(shù)以及網(wǎng)頁(yè)能否提供出色的用戶(hù)體驗(yàn) - 以盡力呈現(xiàn)網(wǎng)絡(luò)所能提供的最有用的信息。為了評(píng)估內(nèi)容在相關(guān)主題方面的可信度和權(quán)威性,同時(shí)會(huì)尋找那些看起來(lái)在類(lèi)似查詢(xún)中受到大量用戶(hù)青睞的網(wǎng)站。如果與該主題相關(guān)的其他知名網(wǎng)站鏈接到了相應(yīng)頁(yè)面,則可充分說(shuō)明此頁(yè)面上的信息具有較高的品質(zhì)。

網(wǎng)絡(luò)中有很多垃圾網(wǎng)站會(huì)試圖通過(guò)再三重復(fù)關(guān)鍵字或購(gòu)買(mǎi)可提升 PageRank 的鏈接等各種不當(dāng)手段,蒙混到搜索結(jié)果中靠前的位置。這些網(wǎng)站提供的用戶(hù)體驗(yàn)非常糟糕,甚至可能會(huì)傷害或誤導(dǎo)搜索用戶(hù)。因此,搜索引擎編寫(xiě)了算法來(lái)識(shí)別網(wǎng)絡(luò)垃圾并將那些違反搜索引擎算法的作弊網(wǎng)站從結(jié)果中移除。

第四步:返回好結(jié)果

在為您提供濟(jì)南網(wǎng)站優(yōu)化結(jié)果之前,搜索引擎會(huì)評(píng)估所有相關(guān)信息的綜合效果:這些搜索結(jié)果是只有一個(gè)主題,還是有很多主題?是否有過(guò)多的頁(yè)面在著重探討一條狹義的詮釋?zhuān)繒?huì)根據(jù)您的搜索類(lèi)型以最有用的格式提供一系列多樣的信息。此外,隨著網(wǎng)絡(luò)不斷發(fā)展,搜索引擎會(huì)不斷優(yōu)化排名系統(tǒng),以便為更多查詢(xún)提供更優(yōu)質(zhì)的結(jié)果。

這些算法會(huì)通過(guò)分析相關(guān)信號(hào)來(lái)評(píng)估是否所有用戶(hù)都能查看搜索結(jié)果。例如:網(wǎng)站是否能在不同的瀏覽器中正常顯示;網(wǎng)站是否適合各種類(lèi)型和尺寸的設(shè)備(包括桌面設(shè)備、平板電腦和智能手機(jī));以及網(wǎng)頁(yè)加載時(shí)間對(duì)于互聯(lián)網(wǎng)連接速度較慢的用戶(hù)而言是否合適。

鑒于網(wǎng)站所有者可以提高其網(wǎng)站的易用性,搜索引擎會(huì)在對(duì)搜索算法做出重大更改時(shí)盡量提前通知網(wǎng)站所有者以便其可以做出應(yīng)對(duì)。例如,百度的各種算法,冰桶算法、颶風(fēng)算法……以及最近的信風(fēng)算法等等。

第五步:考慮具體位置

比如我們搜索“天氣”的時(shí)候,都會(huì)直接返回所在地的天氣信息。

當(dāng)然了,其實(shí)搜索結(jié)果中還有很多更加實(shí)用的功能和結(jié)果。

比如:

天氣直接返回、搜索公交路線直接顯示、百度的專(zhuān)業(yè)問(wèn)答結(jié)果、知識(shí)圖譜等等。都是為了方便用戶(hù)直接獲取到答案,而不用再進(jìn)行二次點(diǎn)擊進(jìn)入網(wǎng)站查看。

最后,本文其實(shí)是將谷歌搜索的工作方式給拿下來(lái)修改了一點(diǎn)點(diǎn)。具體的大家可以直接看谷歌官方原文:https://www.google.com/search/howsearchworks/

了解了一個(gè)其實(shí)其它大部分的商業(yè)化搜索引擎都差不多,也可以從中知道一些seo應(yīng)該關(guān)注什么東西。當(dāng)然了,這里并沒(méi)有給出更多具體的東西。那么具體的一個(gè)搜索引擎原理將會(huì)在后續(xù)的系列課程中給大家一一講解哈。

比如搜索引擎一般有4大系統(tǒng),兩大系統(tǒng)分類(lèi):

離線系統(tǒng)

抓取系統(tǒng)

分析系統(tǒng)

索引系統(tǒng)

在線系統(tǒng)

查詢(xún)系統(tǒng)

文章名稱(chēng):學(xué)seo從了解搜索引擎工作方式開(kāi)始
標(biāo)題鏈接:http://www.bm7419.com/news7/250557.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站排名、電子商務(wù)企業(yè)建站、品牌網(wǎng)站設(shè)計(jì)定制開(kāi)發(fā)、動(dòng)態(tài)網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

網(wǎng)站建設(shè)網(wǎng)站維護(hù)公司