搜索引擎收錄原理

2021-11-19 分類：網(wǎng)站建設(shè)

搜索引擎收錄頁(yè)面實(shí)際上就是在互聯(lián)網(wǎng)上進(jìn)行數(shù)據(jù)采集，這是搜索引擎最基礎(chǔ)的工作。搜索引擎的數(shù)據(jù)采集能力直接決定搜索引擎可提供的信息量及對(duì)互聯(lián)網(wǎng)覆蓋的范圍，從而決定搜索引擎的質(zhì)量。因此，搜索引擎總是想方設(shè)計(jì)地提高其數(shù)據(jù)采集能力。
1.頁(yè)面收錄流程
在互聯(lián)網(wǎng)中，URL是每個(gè)頁(yè)面的入口地址，搜索引擎蜘蛛程序就是通過URL抓取到頁(yè)面的。搜索引擎蜘蛛程序從URL列表出發(fā)，通過URL抓取并存儲(chǔ)頁(yè)面；同時(shí)，提取原始頁(yè)面中的URL資源并加入到URL列表中。如此不斷地循環(huán)，就可以從互聯(lián)網(wǎng)中獲取足夠多的頁(yè)面。
URL是頁(yè)面的入口，而域名則是網(wǎng)站的入口。搜索引擎蜘蛛程序通過域名進(jìn)入網(wǎng)站，從而展開對(duì)網(wǎng)站頁(yè)面的抓取。換而言之，搜索引擎要在互聯(lián)網(wǎng)上抓取到頁(yè)面的首要任務(wù)就是建立一個(gè)足夠大的域名列表，再通過域名進(jìn)入相應(yīng)的網(wǎng)站，從而抓取網(wǎng)站中的頁(yè)面。
而對(duì)于網(wǎng)站來說，如果想要被搜索引擎收錄，首要條件就是加入搜索引擎的域名列表。下面向讀者介紹兩種常用的加入搜索引擎域名列表的方法。
第一，利用搜索引擎提供的網(wǎng)站登錄入口，向搜索引擎提交網(wǎng)站域名，例如Google的網(wǎng)站登錄地址是http://www.google.com/intl/zh-CN/add_url.html，可在此提交自己的網(wǎng)站域名。對(duì)于提交的域名列表，搜索引擎只會(huì)定期進(jìn)行更新。因此，這種做法比較被動(dòng)，從域名提交到網(wǎng)站被收錄花費(fèi)的時(shí)間也比較長(zhǎng)。
第二，通過與外部網(wǎng)站建立鏈接關(guān)系，使搜索引擎可以通過外部網(wǎng)站發(fā)現(xiàn)我們的網(wǎng)站，從而實(shí)現(xiàn)對(duì)網(wǎng)站的收錄。這種做法的主動(dòng)權(quán)掌握在我們自己的手里（只要我們擁有足夠多高質(zhì)量的鏈接即可），縣域收錄速度也比向搜索引擎主動(dòng)提交要快得多。根據(jù)外部鏈接的數(shù)量、質(zhì)量及相關(guān)性，一般情況下，2-7天左右就會(huì)被搜索引擎收錄。
2.頁(yè)面收錄原理
通過上面的介紹，相信讀者已經(jīng)掌握了網(wǎng)站被搜索引擎收錄的方法。然而，怎樣才能提高網(wǎng)站中頁(yè)面被收錄的數(shù)量呢？要回答這個(gè)問題，就要先了解搜索引擎收錄頁(yè)面的工作原理。
如果把網(wǎng)站頁(yè)面組成的集合看作是一個(gè)有向圖，從指定的頁(yè)面出發(fā)，沿著頁(yè)面中的鏈接，按照某種特定的策略對(duì)網(wǎng)站中的頁(yè)面進(jìn)行遍歷。不停地從URL列表中移出已經(jīng)訪問過的URL，并存儲(chǔ)原始頁(yè)面，同時(shí)提取原始頁(yè)面中的URL信息；再將URL分為域名及部URL兩大類，同時(shí)判斷資源為止。經(jīng)過這些工作，搜索引擎就可以建立龐大的域名列表、頁(yè)面URL列表并存儲(chǔ)足夠多的原始頁(yè)面。
3.頁(yè)面收錄方式
上面已經(jīng)介紹了搜索引擎收錄頁(yè)面的流程及原理。然而，在互聯(lián)網(wǎng)數(shù)以億計(jì)的頁(yè)面中，搜索引擎怎樣才能從中抓取到相對(duì)重要的頁(yè)面呢？這就是涉及搜索引擎的頁(yè)面收錄方式。
頁(yè)面收錄方式是指搜索引擎抓取頁(yè)面時(shí)所使用的策略，是為了能在互聯(lián)網(wǎng)中篩選出相對(duì)重要的信息。頁(yè)面收錄方式的制定取決于搜索引擎對(duì)網(wǎng)站結(jié)構(gòu)的理解。如果使用相冊(cè)的抓取策略，搜索引擎在同樣的時(shí)間內(nèi)可以在某一網(wǎng)站中抓取到更多的頁(yè)面資源，則會(huì)在該網(wǎng)站上停留更長(zhǎng)的時(shí)間，收錄的頁(yè)面數(shù)自然也就更多。因此，加深對(duì)搜索引擎頁(yè)面收錄方式的認(rèn)識(shí)，有利于為網(wǎng)站建立友好的結(jié)構(gòu)，提高頁(yè)面被收錄的數(shù)量。
>>廣度優(yōu)先
如果把整個(gè)網(wǎng)站看作是一棵樹，首頁(yè)就是根，每個(gè)頁(yè)面就是葉子。廣度優(yōu)先是一種橫向的頁(yè)面抓取方式，先從樹的較淺層開始抓取頁(yè)面，直至抓取完同層次的所有頁(yè)面后才進(jìn)入下一層。因此，在對(duì)網(wǎng)站進(jìn)行優(yōu)化時(shí)，我們應(yīng)該把網(wǎng)站中相對(duì)重要的信息展示在層次較淺的頁(yè)面上（例如，在首頁(yè)上推薦一些熱門產(chǎn)品或者內(nèi)容）。反過來，通過廣度優(yōu)先的抓取方式，搜索引擎就可以優(yōu)先抓取到網(wǎng)站中相對(duì)重要的頁(yè)面。
首先，搜索引擎從網(wǎng)站首頁(yè)出發(fā)，抓取首頁(yè)上所有鏈接指向的頁(yè)面，形成頁(yè)面集合A，并解析出集合A中所有頁(yè)面的鏈接；再跟蹤這些鏈接抓取下一層的頁(yè)面，形成頁(yè)面集合B；就這樣遞歸地從線層頁(yè)面中解析出鏈接，從而抓取深層頁(yè)面，直至滿足了某個(gè)設(shè)定的條件才停止抓取進(jìn)程。
>>深度優(yōu)先
與廣度優(yōu)先的抓取方式相反，深度優(yōu)先首先跟蹤線層頁(yè)面中的某一鏈接逐步抓取深層頁(yè)面，直至抓取完最深層的頁(yè)面后才返回淺層頁(yè)面再跟蹤其另一鏈接，繼續(xù)向深層頁(yè)面抓取，這是一種頁(yè)面，這樣就能滿足更多用戶的需求。

當(dāng)前題目：搜索引擎收錄原理
鏈接URL：http://www.bm7419.com/news1/136551.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站內(nèi)鏈、用戶體驗(yàn)、商城網(wǎng)站、網(wǎng)站建設(shè)、電子商務(wù)、外貿(mào)建站

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

企業(yè)建立微網(wǎng)站究竟要從哪些方面考慮 2021-11-19
什么是自然排名呢，其中的優(yōu)缺點(diǎn)又是什么呢 2021-11-19
做seo不可急于一時(shí) 2021-11-19
深圳外貿(mào)網(wǎng)站建設(shè)如何才能獲得大量詢盤？ 2021-11-19
雄安網(wǎng)站建設(shè)：網(wǎng)站不“美”何以談轉(zhuǎn)化？ 2021-11-19
SEO站長(zhǎng)如何選擇和設(shè)置網(wǎng)站關(guān)鍵詞 2021-11-19