網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲在信息檢索與處理中有很大的作用,是收集網(wǎng)絡(luò)信息的重要工具。

10年積累的做網(wǎng)站、網(wǎng)站建設(shè)經(jīng)驗,可以快速應(yīng)對客戶對網(wǎng)站的新想法和需求。提供各種問題對應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識你,你也不認(rèn)識我。但先網(wǎng)站制作后付款的網(wǎng)站建設(shè)流程,更有果洛州免費網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。

接下來就介紹一下爬蟲的簡單實現(xiàn)。

爬蟲的工作流程如下

網(wǎng)絡(luò)爬蟲

爬蟲自指定的URL地址開始下載網(wǎng)絡(luò)資源,直到該地址和所有子地址的指定資源都下載完畢為止。http://mmm.qqq23.com

下面開始逐步分析爬蟲的實現(xiàn)。

1.待下載集合與已下載集合

為了保存需要下載的URL,同時防止重復(fù)下載,我們需要分別用了兩個集合來存放將要下載的URL和已經(jīng)下載的URL。

因為在保存URL的同時需要保存與URL相關(guān)的一些其他信息,如深度,所以這里我采用了Dictionary來存放這些URL。

具體類型是Dictionary<string,int>其中string是Url字符串,int是該Url相對于基URL的深度。

每次開始時都檢查未下載的集合,如果已經(jīng)為空,說明已經(jīng)下載完畢;如果還有URL,那么就取出第一個URL加入到已下載的集合中,并且下載這個URL的資源。

2. HTTP請求和響應(yīng)

C#已經(jīng)有封裝好的HTTP請求和響應(yīng)的類HttpWebRequest和HttpWebResponse,所以實現(xiàn)起來方便不少。

為了提高下載的效率,http://www.qqq100.com我們可以用多個請求并發(fā)的方式同時下載多個URL的資源,一種簡單的做法是采用異步請求的方法。

控制并發(fā)的數(shù)量可以用如下方法實現(xiàn)

網(wǎng)絡(luò)爬蟲

1privatevoid DispatchWork()

2{

3if (_stop)//判斷是否中止下載

4    {

5return;

6    }

7for (int i =0; i < _reqCount; i++)

8    {

9if (!_reqsBusy[i])//判斷此編號的工作實例是否空閑

10        {

11            RequestResource(i);//讓此工作實例請求資源

12        }

13    }

14 }

網(wǎng)絡(luò)爬蟲

由于沒有顯式開新線程,所以用一個工作實例來表示一個邏輯工作線程

1privatebool[] _reqsBusy =null;//每個元素代表一個工作實例是否正在工作

2privateint _reqCount =4;//工作實例的數(shù)量

每次一個工作實例完成工作,相應(yīng)的_reqsBusy就設(shè)為false,并調(diào)用DispatchWork,那么DispatchWork就能給空閑的實例分配新任務(wù)了。

接下來是發(fā)送請求

網(wǎng)絡(luò)爬蟲

1privatevoidRequestResource(int index)

2{

3int depth;

4string url ="";

5try

6    {

7lock (_locker)

8        {

9if (_urlsUnload.Count <=0)

10            {

11                _workingSignals.FinishWorking(index);

12return;

13            }

14            _reqsBusy[index] =true;

15            _workingSignals.StartWorking(index);

16            depth = _urlsUnload.First().Value;

17            url = _urlsUnload.First().Key;

18            _urlsLoaded.Add(url, depth);

19            _urlsUnload.Remove(url);

20        }

21

22         HttpWebRequest req = (HttpWebRequest)WebRequest.Create(url);

23        req.Method = _method;//請求方法

24        req.Accept = _accept;//接受的內(nèi)容

25        req.UserAgent = _userAgent;//用戶代理

26        RequestState rs =new RequestState(req, url, depth, index);//回調(diào)方法的參數(shù)

27var result =req.BeginGetResponse(new AsyncCallback(ReceivedResource), rs);//異步請求

28        ThreadPool.RegisterWaitForSingleObject(result.AsyncWaitHandle,//注冊超時處理方法

29                 TimeoutCallback, rs, _maxTime,true);

30    }

31catch (WebException we)

32    {

33        MessageBox.Show("RequestResource" + we.Message + url + we.Status);

34    }

35 }

網(wǎng)絡(luò)爬蟲

第26行的請求的額外信息在異步請求的回調(diào)方法作為參數(shù)傳入,之后還會提到。

第27行開始異步請求,這里需要傳入一個回調(diào)方法作為響應(yīng)請求時的處理,同時傳入回調(diào)方法的參數(shù)。

第28行給該異步請求注冊一個超時處理方法TimeoutCallback,最大等待時間是_maxTime,且只處理一次超時,并傳入請求的額外信息作為回調(diào)方法的參數(shù)。

RequestState的定義是

網(wǎng)絡(luò)爬蟲

1class RequestState

2{

3privateconstint BUFFER_SIZE =131072;//接收數(shù)據(jù)包的空間大小

4privatebyte[] _data =newbyte[BUFFER_SIZE];//接收數(shù)據(jù)包的buffer

5private StringBuilder _sb =new StringBuilder();//存放所有接收到的字符

6

7public HttpWebRequest Req {get;privateset; }//請求

8publicstring Url {get;privateset; }//請求的URL

9publicint Depth {get;privateset; }//此次請求的相對深度

10publicint Index {get;privateset; }//工作實例的編號

11public StreamResStream {get;set; }//接收數(shù)據(jù)流

12public StringBuilder Html

13    {

14get

15        {

16return _sb;

17        }

18    }

19

20publicbyte[] Data

21    {

22get

23        {

24return _data;

25        }

26    }

27

28publicint BufferSize

29    {

30get

31        {

32return BUFFER_SIZE;

33        }

34    }

35

36publicRequestState(HttpWebRequest req,string url,int depth,int index)

37    {

38        Req = req;

39        Url = url;

40        Depth = depth;

41        Index = index;

42    }

43 }

網(wǎng)絡(luò)爬蟲

TimeoutCallback的定義是

網(wǎng)絡(luò)爬蟲

1privatevoidTimeoutCallback(object state,bool timedOut)

2{

3if (timedOut)//判斷是否是超時

4    {

5         RequestState rs = stateas RequestState;

6if (rs !=null)

7        {

8             rs.Req.Abort();//撤銷請求

9        }

10        _reqsBusy[rs.Index] =false;//重置工作狀態(tài)

11        DispatchWork();//分配新任務(wù)

12    }

13 }

網(wǎng)絡(luò)爬蟲

接下來就是要處理請求的響應(yīng)了

網(wǎng)絡(luò)爬蟲

1privatevoidReceivedResource(IAsyncResult ar)

2{

3     RequestState rs = (RequestState)ar.AsyncState;//得到請求時傳入的參數(shù)

4     HttpWebRequest req = rs.Req;

5string url = rs.Url;

6try

7    {

8         HttpWebResponse res =(HttpWebResponse)req.EndGetResponse(ar);//獲取響應(yīng)

9if (_stop)//判斷是否中止下載

10        {

11            res.Close();

12            req.Abort();

13return;

14        }

15if (res !=null &&res.StatusCode == HttpStatusCode.OK)//判斷是否成功獲取響應(yīng)

16        {

17            Stream resStream = res.GetResponseStream();//得到資源流

18            rs.ResStream = resStream;

19var result =resStream.BeginRead(rs.Data,0, rs.BufferSize,//異步請求讀取數(shù)據(jù)

20new AsyncCallback(ReceivedData), rs);

21        }

22else//響應(yīng)失敗

23        {

24            res.Close();

25            rs.Req.Abort();

26            _reqsBusy[rs.Index] =false;//重置工作狀態(tài)

27            DispatchWork();//分配新任務(wù)

28        }

29    }

30catch (WebException we)

31    {

32        MessageBox.Show("ReceivedResource" + we.Message + url + we.Status);

33    }

34 }

網(wǎng)絡(luò)爬蟲

第19行這里采用了異步的方法來讀數(shù)據(jù)流是因為我們之前采用了異步的方式請求,不然的話不能夠正常的接收數(shù)據(jù)。

該異步讀取的方式是按包來讀取的,所以一旦接收到一個包就會調(diào)用傳入的回調(diào)方法ReceivedData,然后在該方法中處理收到的數(shù)據(jù)。

該方法同時傳入了接收數(shù)據(jù)的空間rs.Data和空間的大小rs.BufferSize。

接下來是接收數(shù)據(jù)和處理

網(wǎng)絡(luò)爬蟲

1privatevoidReceivedData(IAsyncResult ar)

2{

3     RequestState rs =(RequestState)ar.AsyncState;//獲取參數(shù)

4     HttpWebRequest req = rs.Req;

5     Stream resStream = rs.ResStream;

6string url = rs.Url;

7int depth = rs.Depth;

8string html =null;

9int index = rs.Index;

10int read =0;

11

12try

13    {

14        read = resStream.EndRead(ar);//獲得數(shù)據(jù)讀取結(jié)果

15if (_stop)//判斷是否中止下載

16        {

17            rs.ResStream.Close();

18            req.Abort();

19return;

20        }

21if (read >0)

22        {

23            MemoryStream ms =new MemoryStream(rs.Data,0, read);//利用獲得的數(shù)據(jù)創(chuàng)建內(nèi)存流

24            StreamReader reader =new StreamReader(ms, _encoding);

25string str = reader.ReadToEnd();//讀取所有字符

26            rs.Html.Append(str);//添加到之前的末尾

27var result =resStream.BeginRead(rs.Data,0, rs.BufferSize,//再次異步請求讀取數(shù)據(jù)

28new AsyncCallback(ReceivedData), rs);

29return;

30        }

31        html = rs.Html.ToString();

32        SaveContents(html, url);//保存到本地

33string[] links = GetLinks(html);//獲取頁面中的鏈接

34        AddUrls(links, depth +1);//過濾鏈接并添加到未下載集合中

35

36        _reqsBusy[index] =false;//重置工作狀態(tài)

37        DispatchWork();//分配新任務(wù)

38    }

39catch (WebException we)

40    {

41        MessageBox.Show("ReceivedDataWeb " + we.Message + url + we.Status);

42    }

43 }

網(wǎng)絡(luò)爬蟲

第14行獲得了讀取的數(shù)據(jù)大小read,如果read>0說明數(shù)據(jù)可能還沒有讀完,所以在27行繼續(xù)請求讀下一個數(shù)據(jù)包;

如果read<=0說明所有數(shù)據(jù)已經(jīng)接收完畢,這時rs.Html中存放了完整的HTML數(shù)據(jù),就可以進(jìn)行下一步的處理了。

附件:http://down.51cto.com/data/2362930

分享標(biāo)題:網(wǎng)絡(luò)爬蟲
轉(zhuǎn)載來源:http://bm7419.com/article6/jddpog.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供微信小程序、軟件開發(fā)品牌網(wǎng)站建設(shè)、電子商務(wù)營銷型網(wǎng)站建設(shè)、網(wǎng)站制作

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都做網(wǎng)站