如何理解php正則提取圖片地址-創(chuàng)新互聯(lián)

本篇內(nèi)容介紹了“如何理解php正則提取圖片地址”的有關(guān)知識(shí),在實(shí)際案例的操作過程中,不少人都會(huì)遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

創(chuàng)新互聯(lián)公司堅(jiān)持“要么做到,要么別承諾”的工作理念,服務(wù)領(lǐng)域包括:成都做網(wǎng)站、成都網(wǎng)站制作、成都外貿(mào)網(wǎng)站建設(shè)、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣等服務(wù),滿足客戶于互聯(lián)網(wǎng)時(shí)代的吉陽網(wǎng)站設(shè)計(jì)、移動(dòng)媒體設(shè)計(jì)的需求,幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡(luò)建設(shè)合作伙伴!

復(fù)制代碼 代碼如下:

<img title="囧2" src="http://www.xlanda.net/wp-admin/%E5%9B%A73" alt="囧4" title="囧2" width="5" height="6" />


囧1和囧2是非必需的,若要通過XHTML認(rèn)證囧4、囧5、囧6必不可少,囧3是核心內(nèi)容,當(dāng)然就不能少了。

就正則談?wù)齽t的話,我寫出的短匹配是

復(fù)制代碼 代碼如下:

(?<=img.+?src=").*?(?=")


不過,這條在php里不行,會(huì)出現(xiàn):

Warning: preg_match_all() [function.preg-match-all]: Compilation failed: lookbehind assertion is not fixed length at offset *** in ***

糾結(jié)了很久,都不行,原因何在呢?試了很多次,終于發(fā)現(xiàn)問題在(?<=img.+?src=")這個(gè)零寬斷言里,在php中,零寬斷言里不支持類似“*”、“+”這些無限次的東西,于是報(bào)錯(cuò)了,把“.+?”改為定長(zhǎng)就好。不過,要“img”和“src=”之間定長(zhǎng)基本上是不可能的。通常,圖片地址的img和src只會(huì)相隔一個(gè)很簡(jiǎn)單的空格,但不排除某些情況在src之前,img后有alt、titlte等東西。

所以


復(fù)制代碼 代碼如下:

(?<=img.src=").*?(?=")




復(fù)制代碼 代碼如下:

(?<=img\ssrc=").*?(?=")


可能可以,但不保證100%沒問題。

你也許會(huì)問,單純

復(fù)制代碼 代碼如下:

(?<=src=").*?(?=")


不行嗎?通常情況,可以,但,搜索過頁面的盆友應(yīng)該知道,除了圖片地址用src開頭以外,javascript地址也用src開頭!而且,太多神通廣大的不可預(yù)知因素隱含其中,于是這個(gè)貌似很簡(jiǎn)短完美的寫法就行不通了。

你又或許會(huì)問,聰明簡(jiǎn)短的不行,我把圖片的后綴列出來,總該可以了吧,如

復(fù)制代碼 代碼如下:

(?<=src=").*?\.(jpg|jpeg|gif|png|bmp|JPG|JPEG|GIF|PNG|BMP)


的確,這個(gè)寫法實(shí)在是很老實(shí),不過,你見過沒有后綴的圖片?wwe.com 有很多這種例子呢

RAW /tupian/20230522/
SmackDown /tupian/20230522/
NXT /tupian/20230522/
Superstars /tupian/20230522/>復(fù)制代碼 代碼如下:

<img(.*?)src="(.*?)(?=")


和上面的表達(dá)式不同,這次的結(jié)果中array[0]的內(nèi)容不是我們想要的,我們要的圖片地址在array[2]里。為什么呢?因?yàn)槲覀冇昧?個(gè) (.*?),每個(gè)“()”的東西會(huì)自動(dòng)存在一個(gè)組里,而array[0]代表結(jié)果的匯總,array[1]包含了img和src里的所有東西,array[2]才輪到我們想要的圖片地址。這種匹配方法,既能匹配有傳統(tǒng)后綴的圖片,也能匹配一些無后綴的圖片文件,同時(shí)又不會(huì)殺錯(cuò)其它src=文件。個(gè)人感覺還是不錯(cuò)的,呵呵。當(dāng)然了,如果你還有更好的建議,請(qǐng)馬上留言,全球人民都會(huì)感謝你!

你到底要什么樣的圖片,是固定格式還是其它?得具體情況具體分析呢。

我的建議是:

如果你要的圖片地址的格式是img空格src=的,請(qǐng)使用:(?<=img.src=").*?(?=") ,數(shù)組,你懂的。

否則,請(qǐng)使用<img(.*?)src="(.*?)(?=") ,記得留意有用內(nèi)容所在的數(shù)組位置哦!

再談php正則提取圖片地址

前天寫了小談php正則提取圖片地址 ,但其實(shí),提取src=里面的圖片地址還不足夠,因?yàn)椴荒鼙WC那個(gè)地址一定是絕對(duì)地址,完全的地址,如果那是相對(duì)的呢?如果地址諸如:

albums/Candids/thumb_P1050338.jpg
/content/media/touts/5271608/5271654/15320982

那該如何是好?

有時(shí)在這些地址前面需要加/tupian/20230522/ ,有些甚至要加/tupian/20230522/example2/.../ 于是,要寫出出一種法則符合所有要求,簡(jiǎn)直是天方夜譚。只能見機(jī)行事對(duì)癥下藥。有時(shí),需要從前面動(dòng)刀,有時(shí)需要從后面砍斷。

今天,我驚訝地知道了一個(gè)道理,原來/tupian/20230522/ 和/tupian/20230522////// 是一樣的!

/tupian/20230522/404.html” 嘛,多一個(gè)顯示仍會(huì)正常,但少一個(gè)“/”,嘿嘿,你就別想成功了。開始的時(shí)候我還沒意識(shí)到這種東西,復(fù)制了一大段代碼,把一樣的東西硬生生弄兩份,一份加 “./.”,一份不加。我這個(gè)火星來的,浪費(fèi)時(shí)間了。

放出2個(gè)地址,公測(cè)一下網(wǎng)頁獲取圖片的情況:

針對(duì)任何網(wǎng)頁,需要登入的除外:http://xyark.serw5.com/img.php
針對(duì)Coppermine Photo Gallery 系統(tǒng):http://xyark.serw5.com/g.php (如果你認(rèn)為彈出原圖的js頁面也需要的話,我只好囧你了)

普頁是個(gè)對(duì)抓取任何圖片的嘗試,系統(tǒng)專頁是為了展示什么叫做具體情況具體分析。試過的童鞋會(huì)知道,普頁對(duì)某些使用Coppermine Photo Gallery系統(tǒng)的網(wǎng)站是行不通的,原因何在?就是那個(gè)前綴搞的鬼!但系統(tǒng)專頁就能很好地避開了這個(gè)問題。

“如何理解php正則提取圖片地址”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!

新聞標(biāo)題:如何理解php正則提取圖片地址-創(chuàng)新互聯(lián)
文章起源:http://bm7419.com/article44/ddjiee.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供標(biāo)簽優(yōu)化面包屑導(dǎo)航、營銷型網(wǎng)站建設(shè)、商城網(wǎng)站、網(wǎng)站營銷、外貿(mào)建站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

微信小程序開發(fā)