簡述搜索引擎的工作原理

2022-06-08    分類: 網(wǎng)站建設

搜索引擎的基本工作原理包括如下三個過程:首先在互聯(lián)網(wǎng)中發(fā)現(xiàn)、搜集網(wǎng)頁信息;同時對信息進行提取和組織建立索引庫;再由檢索器根據(jù)用戶輸入的查詢關鍵字,在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,并將查詢結果返回給用戶。 搜索引擎蜘蛛程序,其實就是搜索引擎的一個自動應用程序,它的作用是什么呢?其實很簡單,就是在互聯(lián)網(wǎng)中瀏覽信息,然后把這些信息都抓取到搜索引擎的服務器上,然后建立索引庫等等,我們可以把搜索引擎蜘蛛當做一個用戶,然后這個用戶來訪問我們的網(wǎng)站,然后在把我們網(wǎng)站的內(nèi)容保存到自己的電腦上!比較好理解。

1. 搜集信息:搜索引擎的信息搜集基本都是自動的。搜索引擎利用稱為網(wǎng)絡蜘蛛的自動搜索機器人程序來連上每一個網(wǎng)頁上的超連結。理論上,若網(wǎng)頁上有適當?shù)某溄Y,機器人便可以遍歷絕大部分網(wǎng)頁。

2. 整理信息:搜索引擎整理信息的過程稱為“建立索引”。搜索引擎不僅要保存搜集起來的信息,還要將它們按照一定的規(guī)則進行編排。那么它每次找資料都得把整個資料庫完全翻查一遍,如此一來再快的計算機系統(tǒng)也沒有用。

3. 接受查詢:用戶向搜索引擎發(fā)出查詢,搜索引擎接受查詢并向用戶返回資料。搜索引擎每時每刻都要接到來自大量用戶的幾乎是同時發(fā)出的查詢,用戶便能到達含有自己所需資料的網(wǎng)頁。通常搜索引擎會在這些鏈接下提供一小段來自這些網(wǎng)頁的摘要信息以幫助用戶判斷此網(wǎng)頁是否含有自己需要的內(nèi)容。

通過指向該網(wǎng)頁的外鏈錨文本所傳遞的權重數(shù)值,來為此網(wǎng)頁確定一個權重數(shù)值,同時結合上述的“重要信息分析”,從而確立此網(wǎng)頁的關鍵詞集合p中每一個關鍵詞所具備的排名系數(shù)。

搜索引擎的工作分為四個步驟:
1. 爬行和抓取
搜索引擎派出一個能夠在網(wǎng)上發(fā)現(xiàn)新網(wǎng)頁并抓文件的程序,這個程序通常稱之為蜘蛛。搜索引擎從已知的數(shù)據(jù)庫出發(fā),這些新的網(wǎng)址會被存入數(shù)據(jù)庫等待抓取。所以跟蹤網(wǎng)頁鏈接是搜索引擎蜘蛛發(fā)現(xiàn)新網(wǎng)址的最基本的方法,所以反向鏈接成為搜索引擎優(yōu)化的最基本因素之一。搜索引擎抓取的頁面文件與用戶瀏覽器得到的完全一樣,抓取的文件存入數(shù)據(jù)庫。

2.索引
蜘蛛抓取的頁面文件分解、分析,并以巨大表格的形式存入數(shù)據(jù)庫,這個過程即是索引(index).在索引數(shù)據(jù)庫中,網(wǎng)頁文字內(nèi)容,關鍵詞出現(xiàn)的位置、字體、顏色、加粗、斜體等相關信息都有相應記錄。

3.搜索詞處理
用戶在搜索引擎界面輸入關鍵詞,單擊“搜索”按鈕后,搜索引擎程序即對搜索詞進行處理,如中文特有的分詞處理,去除停止詞,判斷是否需要啟動整合搜索,判斷是否有拼寫錯誤或錯別字等情況。搜索詞的處理必須十分快速。搜索引擎蜘蛛幾乎是24小時不休息的(在此為它感到悲劇,沒有假期。哈哈。)那么蜘蛛下載回來的網(wǎng)頁怎么辦呢?這就需要到了第二個系統(tǒng),也就是搜索引擎的分析系統(tǒng)。

4.排序
對搜索詞處理后,搜索引擎程序便開始工作,從索引數(shù)據(jù)庫中找出所有包含搜索詞的網(wǎng)頁,再好的搜索引擎也無法與人相比,這就是為什么網(wǎng)站要進行搜索引擎優(yōu)化。沒有SEO的幫助,搜索引擎常常并不能正確的返回最相關、最權威、最有用的信息。

正如上文所說,用戶在查詢時所得到的查詢結果并非是及時的,而是在搜索引擎的緩存區(qū)已經(jīng)大體排好的,當然搜索引擎不會未卜先知,那么這樣下來,搜索引擎就可以在用戶產(chǎn)生查詢行為之前,將詞庫中的每一個關鍵詞其對應的URL排名先行計算好,這樣就大大節(jié)省了處理查詢的時間了。

搜索引擎直至現(xiàn)在,都是在不斷完善用戶體驗,爭取在用戶搜索查詢時輸出最匹配的結果,從而讓用戶依賴上搜索引擎,才能賺取更多的廣告費用(例如百度推廣),舉個例子:CCTV頻道的用戶很多,但是從不跟看CCTV的用戶收錢,但能賺到很多的廣告費;在這里指的匹配不光是字符上的匹配,我們可以去百度搜索“PC”會看到“電腦”也是飄紅的。

分享文章:簡述搜索引擎的工作原理
網(wǎng)頁網(wǎng)址:http://bm7419.com/news/165161.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供Google、自適應網(wǎng)站、服務器托管、ChatGPT、營銷型網(wǎng)站建設做網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉載內(nèi)容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站優(yōu)化排名