機(jī)器學(xué)習(xí)過(guò)程的三個(gè)坑，看看你踩過(guò)哪一個(gè)

2021-02-05 分類：網(wǎng)站建設(shè)

機(jī)器學(xué)習(xí)過(guò)程的三個(gè)坑，看看你踩過(guò)哪一個(gè)

幾十年來(lái)，機(jī)器學(xué)習(xí)領(lǐng)域一直飽受“坦克問(wèn)題(tank problem)”的折磨。為了說(shuō)明這點(diǎn)，這里列舉三個(gè)Google Accelerate Science團(tuán)隊(duì)所面臨并且克服的機(jī)器學(xué)習(xí)的三大問(wèn)題。

幾十年來(lái)，機(jī)器學(xué)習(xí)領(lǐng)域一直飽受“坦克問(wèn)題(tank problem)”的折磨。

故事發(fā)生在上個(gè)世紀(jì)60年代(此研究已知的最早文獻(xiàn)，此處感謝軟件工程師Jeff Kaufman)，事件的細(xì)節(jié)已湮沒(méi)在時(shí)間的迷霧當(dāng)中，不過(guò)故事大概是這樣子的：

研究者們編寫了個(gè)算法來(lái)從軍方提供的照片中識(shí)別坦克。該模型成功地在測(cè)試圖中找到了坦克，但隨后使用真實(shí)的照片時(shí)卻失敗了。

原因是什么呢?口口相傳的具體細(xì)節(jié)各不相同，但算法用來(lái)測(cè)試的圖片包含了其他信息，比如在晨光中或從云層下顯現(xiàn)的坦克影響了機(jī)器判斷是一個(gè)重要的原因。所以說(shuō)，并不是坦克的存在決定了算法，其它因素也很重要。

類似的情況在當(dāng)今也引起了反省。許多機(jī)器學(xué)習(xí)的論文未能完成足夠多的實(shí)驗(yàn)，審查標(biāo)準(zhǔn)不夠一致，并且行業(yè)內(nèi)激烈的競(jìng)爭(zhēng)也鼓勵(lì)一些研究人員，一旦得到了他們想要的答案就偷工減料跳過(guò)檢查。所以在無(wú)數(shù)領(lǐng)域的科學(xué)家正急于用機(jī)器學(xué)習(xí)解決問(wèn)題時(shí)，谷歌的Patrick Riley卻呼吁大家在研究中制定更加明確的標(biāo)準(zhǔn)。

不可否認(rèn)的是機(jī)器學(xué)習(xí)正在推動(dòng)著整個(gè)科學(xué)界的發(fā)展，尤其是它發(fā)現(xiàn)及預(yù)測(cè)的模式正在從各個(gè)領(lǐng)域輔助研究者們，從搜尋分子制造的新方法和在試驗(yàn)中發(fā)現(xiàn)微小信號(hào)，到改進(jìn)醫(yī)療診斷與揭示基本粒子，皆有其身影。

然而，機(jī)器學(xué)習(xí)工具也會(huì)變成“智障”，比如假正例、死胡同與各種錯(cuò)誤。而且由于許多算法都太過(guò)復(fù)雜，以至于無(wú)法檢查所有參數(shù)或者準(zhǔn)確了解輸入的方式，隨著這些算法被更加廣泛地應(yīng)用，錯(cuò)誤的結(jié)論和科學(xué)成果所引發(fā)的風(fēng)險(xiǎn)將會(huì)呈螺旋式上升。

這些問(wèn)題并不是一朝一夕的事，所以預(yù)測(cè)每次分析中出現(xiàn)的所有問(wèn)題或困境也是不可能的，但至少，那些在自己的領(lǐng)域使用機(jī)器學(xué)習(xí)的研究者們，應(yīng)該去熟悉一些常見的陷阱，以及如何檢測(cè)或避免那些陷阱。

為了說(shuō)明這點(diǎn)，這里列舉三個(gè)Google Accelerate Science團(tuán)隊(duì)所面臨并且克服的機(jī)器學(xué)習(xí)的三大問(wèn)題。

機(jī)器學(xué)習(xí)三大陷阱

1. 不適當(dāng)?shù)夭鸱謹(jǐn)?shù)據(jù)

在建模時(shí)，機(jī)器學(xué)習(xí)從業(yè)者通常將數(shù)據(jù)分成訓(xùn)練集和測(cè)試集，用訓(xùn)練集訓(xùn)練模型，用測(cè)試集評(píng)估模型的性能。研究員通常會(huì)隨機(jī)拆分?jǐn)?shù)據(jù)，但是現(xiàn)實(shí)生活里真正隨機(jī)的數(shù)據(jù)少之又少。他們可能包含了時(shí)間趨勢(shì)，例如收集數(shù)據(jù)方法的變化，或是收集信息的各種選擇。

例如，這種歷史模式隱藏在分子數(shù)據(jù)集中，而機(jī)器學(xué)習(xí)算法正在對(duì)這些數(shù)據(jù)集進(jìn)行虛擬篩選，以尋找候選藥物。這里的挑戰(zhàn)在于預(yù)測(cè)一個(gè)分子如何會(huì)被有效地被人體吸收或減少炎癥。篩選從有關(guān)分子的數(shù)據(jù)開始，這些分子具有或不具有預(yù)期的效果，但是收集數(shù)據(jù)的背景或許會(huì)與機(jī)器學(xué)習(xí)模型的使用方式有所不同。

一個(gè)模型可能是用一組公開可用的分子數(shù)據(jù)集訓(xùn)練的，然后用于測(cè)試另一組專有的分子數(shù)據(jù)集。而當(dāng)有希望的候選項(xiàng)被檢測(cè)和丟棄時(shí)，化學(xué)家的關(guān)注點(diǎn)往往從某些分子群轉(zhuǎn)移到另一些分子群。因此，研究人員經(jīng)常高估模型在實(shí)踐中的表現(xiàn)。這會(huì)導(dǎo)致期望值的膨脹，并且在選擇不適合的分子上浪費(fèi)時(shí)間和金錢。許多模型制造者都落入這個(gè)陷阱。

換句話說(shuō)，你要解決的問(wèn)題才應(yīng)該影響你如何分割數(shù)據(jù)。為了預(yù)測(cè)向一個(gè)分子中添加兩個(gè)原子的效果，測(cè)試集中的每個(gè)分子在訓(xùn)練集中應(yīng)該至少存在兩個(gè)原子的差別。如果你想對(duì)不同的化學(xué)分子有更好的預(yù)測(cè)，測(cè)試集中的每個(gè)分子都應(yīng)該不同于訓(xùn)練集中的任何東西。分割數(shù)據(jù)的“正確”方法可能并不顯眼，但是仔細(xì)考慮和嘗試幾種方法或有意想不到的收獲。

2. 隱藏變量

在一個(gè)理想的實(shí)驗(yàn)當(dāng)中，研究者只改變他們感興趣的變量，并讓其他變量保持不變，而這種控制在現(xiàn)實(shí)當(dāng)中幾乎是不可能的。儀器的精確度會(huì)隨著時(shí)間而改變，試劑的批次會(huì)有所不同，一個(gè)實(shí)驗(yàn)條件會(huì)先于另一個(gè)進(jìn)行表現(xiàn)出來(lái)，甚至天氣都有可能影響結(jié)果。在機(jī)器學(xué)習(xí)模型中，這些不受控制的變量都將是有害無(wú)益的。

舉個(gè)例子，谷歌的一個(gè)團(tuán)隊(duì)一直在加利福尼亞州的福特·希爾蘭赫 (Foothill Ranch, California) 的核聚變初創(chuàng)公司TAE Technologies工作，進(jìn)行優(yōu)化生產(chǎn)高能等離子體的實(shí)驗(yàn)。他們?cè)谶@里建了模型來(lái)試圖理解等離子機(jī)的設(shè)備裝置。這里存在著上百個(gè)從“何時(shí)接通電極”到“設(shè)置在磁體上的電壓為多少”等控制參數(shù)，然后記錄了一系列包括溫度和光譜在內(nèi)的測(cè)量值。

他們歷經(jīng)數(shù)月，從數(shù)千次運(yùn)行的等離子機(jī)中提取了數(shù)據(jù)，其中的設(shè)定會(huì)隨著我們的設(shè)備調(diào)整、部件磨損和多種嘗試有所變化。當(dāng)我們得到了一個(gè)在給定的設(shè)置下，無(wú)論等離子能量是否會(huì)變高，預(yù)測(cè)結(jié)果都很不錯(cuò)的模型時(shí)，大家都很高興，不過(guò)很快就打臉了。

當(dāng)他們以實(shí)驗(yàn)時(shí)間為唯一輸入而不是機(jī)器的所有設(shè)置來(lái)訓(xùn)練模型，也得到了相似的預(yù)測(cè)效果。為什么?因?yàn)槟Ｐ玩i定的就是時(shí)間趨勢(shì)，而不是物理現(xiàn)象。也就是說(shuō)，機(jī)器運(yùn)轉(zhuǎn)良好的時(shí)間段和不良的時(shí)間段分別出現(xiàn)，所以，從實(shí)驗(yàn)完成的時(shí)間可以看出等離子體是否是高能量的。此外，通過(guò)控制參數(shù)的設(shè)置可以粗略預(yù)測(cè)實(shí)驗(yàn)何時(shí)進(jìn)行ーー這些參數(shù)的變化也存在時(shí)間趨勢(shì)。也就是說(shuō)，除了時(shí)間規(guī)律，模型什么物理規(guī)律都沒(méi)管。

隱藏變量也會(huì)來(lái)源于實(shí)驗(yàn)布局。像我們?cè)诮庾x顯微鏡圖像方面與許多機(jī)構(gòu)合作，其中包括紐約市的紐約干細(xì)胞基金會(huì)研究所。這些圖像包括了在培養(yǎng)皿上進(jìn)行的生物實(shí)驗(yàn)，通常是一些包含細(xì)胞和液體的網(wǎng)格孔。我們的目標(biāo)是發(fā)現(xiàn)擁有某些特征的孔，比如化學(xué)處理后細(xì)胞外觀的變化。但是生物變異意味著每個(gè)培養(yǎng)皿本身總是會(huì)看起來(lái)有稍許不同，并且單個(gè)培養(yǎng)皿也可能存有差異。如果外圍孔有更多液體蒸發(fā)，或者培養(yǎng)皿有被傾斜，那邊緣看起來(lái)通常會(huì)與中心不一樣。

機(jī)器學(xué)習(xí)算法能輕而易舉地注意到這些變化。比如說(shuō)模型可能剛辨認(rèn)出了哪些孔處在培養(yǎng)皿的邊緣，一種檢查模型的簡(jiǎn)易方法就是讓模型去預(yù)測(cè)其他方面，如培養(yǎng)皿的位置、哪一塊培養(yǎng)皿，或者圖片來(lái)源的批次。如果算法能做到這一點(diǎn)，那你最好對(duì)結(jié)果持懷疑態(tài)度。

最重要的一點(diǎn)是，要使用多個(gè)模型來(lái)檢測(cè)那些意外變量與隱藏變量?？梢杂靡粋€(gè)模型側(cè)重你關(guān)心的問(wèn)題，比如離子是高能還是低能，細(xì)胞是否健康，其他模型則用來(lái)清除干擾因子。如果后者結(jié)果很強(qiáng)，那么請(qǐng)將數(shù)據(jù)標(biāo)準(zhǔn)化，做些進(jìn)一步的實(shí)驗(yàn)，或者調(diào)整一下結(jié)論。

3. 曲解目標(biāo)

機(jī)器學(xué)習(xí)算法要求研究員明確一個(gè)用來(lái)估量各種錯(cuò)誤嚴(yán)重度的“損失函數(shù)”，例如到底是有兩個(gè)1%的錯(cuò)誤好，還是單個(gè)2%的錯(cuò)誤更合理。從業(yè)者們傾向于應(yīng)用函數(shù)的一小部分，從而導(dǎo)致他們無(wú)法得到真正需要的內(nèi)容。

還是舉個(gè)例子，大家一直有用機(jī)器學(xué)習(xí)來(lái)輔佐求解微分方程。這些公式在包括流體力學(xué)、電磁學(xué)、材料科學(xué)、天體物理學(xué)和金融建模中很常見，一般情況下它們必須以數(shù)字方式解決，然后開始訓(xùn)練模型，從而能在有限的條件下提供更高的精確性。

比如說(shuō)從一個(gè)方程開始描述水波如何在一維進(jìn)行傳播吧。該算法的任務(wù)是從當(dāng)前的時(shí)間步長(zhǎng)來(lái)重復(fù)預(yù)測(cè)下一步，在這方面可以準(zhǔn)備兩種略微不同的方法與訓(xùn)練模型。根據(jù)損失函數(shù)來(lái)看，這兩個(gè)模型是一樣優(yōu)秀的，但實(shí)際上其中一個(gè)做了一堆無(wú)用功，另一個(gè)的產(chǎn)生結(jié)果更接近預(yù)期。

原因就是控制學(xué)習(xí)的損失函數(shù)只考慮到了下一步的錯(cuò)誤，而不是研究者真正想要的多重步驟的解決方案有效性。

我們?cè)谔悄虿∫暰W(wǎng)膜病變的機(jī)器篩查方面也出現(xiàn)了分歧目標(biāo)。這是糖尿病的一種并發(fā)癥，也是世界上可預(yù)防性失明的主要原因。如果能從眼后圖像及時(shí)檢測(cè)到該病癥，它就能被有效治療。當(dāng)我們收集數(shù)據(jù)并且讓眼科醫(yī)生通過(guò)圖像進(jìn)行診斷時(shí)，我們讓機(jī)器學(xué)習(xí)的工具預(yù)測(cè)一下醫(yī)生都會(huì)說(shuō)些什么，此時(shí)出現(xiàn)了兩種情況。

在印度Madurai的Aravind醫(yī)院，工作人員和谷歌研究員正在進(jìn)行眼科檢查，試圖自動(dòng)診斷由糖尿病引起的失明。圖源：Atul Loke /紐約時(shí)報(bào)/ Red / eyevine

情況一是眼科醫(yī)生經(jīng)常不認(rèn)同診斷，因此研究人員意識(shí)到不能通過(guò)單一的預(yù)測(cè)來(lái)建立模型?？偛荒軄?lái)個(gè)投票說(shuō)少數(shù)服從多數(shù)，因?yàn)樵卺t(yī)療上，有時(shí)候少數(shù)人的意見才是正確的。情況二是單一疾病的診斷實(shí)際上并不是真正的目標(biāo)。因?yàn)橥枰獑?wèn)的是：“這個(gè)患者需要去看醫(yī)生嗎?”，然后通過(guò)這種方式將目標(biāo)從單一疾病的診斷擴(kuò)展到多重疾病。

機(jī)器學(xué)習(xí)從業(yè)者很容易迷戀上數(shù)據(jù)標(biāo)簽都清晰的 “明顯“目標(biāo)，但他們可能正在設(shè)置算法來(lái)解決錯(cuò)誤的問(wèn)題。所以必須牢記大方向和總目標(biāo)，否則就只會(huì)為錯(cuò)誤問(wèn)題埋單。

那可以做什么呢?

首先，機(jī)器學(xué)習(xí)專家需要讓自己和同事們持有更高的標(biāo)準(zhǔn)。當(dāng)有新實(shí)驗(yàn)設(shè)備到來(lái)時(shí)，大家總是寄希望于實(shí)驗(yàn)室的小伙伴們搞懂其功能，怎么校準(zhǔn)，怎么檢測(cè)到問(wèn)題，還要了解其功能的限制。因此，面對(duì)機(jī)器學(xué)習(xí)時(shí)也應(yīng)如此。機(jī)器學(xué)習(xí)不是魔法，工具的使用者們必須了解如何掌控它們。

其次，當(dāng)需要使用機(jī)器學(xué)習(xí)時(shí)，不同學(xué)科需要為其制定出明確的標(biāo)準(zhǔn)。合適的控制、健全性檢查和錯(cuò)誤的測(cè)量會(huì)因領(lǐng)域而異，所以這些都需要解釋清楚，以便研究者、審查者和從業(yè)者有規(guī)可循。

第三，機(jī)器學(xué)習(xí)科學(xué)家們所受的教育需要包括一些更廣泛的內(nèi)容。即使有些類似于這樣開源的資源存在，需要做的仍然很多。授人以魚不如授人以漁，可能更多人只去學(xué)算法與工具，但學(xué)習(xí)如何應(yīng)用算法與適當(dāng)?shù)靥岢鲑|(zhì)疑也很重要。

所有從事機(jī)器學(xué)習(xí)的人都正處在一個(gè)神奇的點(diǎn)上——計(jì)算能力、數(shù)據(jù)和算法交織在一起，在機(jī)器學(xué)習(xí)的的協(xié)助下碰撞出了新的美妙火花，利用好這個(gè)機(jī)會(huì)將是整個(gè)科學(xué)界義不容辭的責(zé)任。

新聞名稱：機(jī)器學(xué)習(xí)過(guò)程的三個(gè)坑，看看你踩過(guò)哪一個(gè)
標(biāo)題來(lái)源：http://www.bm7419.com/news17/99217.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站排名、企業(yè)建站、虛擬主機(jī)、搜索引擎優(yōu)化、網(wǎng)站改版、做網(wǎng)站

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

企業(yè)為什么要做SEO，它的重要性有哪些？ 2021-02-05
云計(jì)算數(shù)據(jù)倉(cāng)庫(kù)的下一步是什么 2021-02-05
云主機(jī)和普通主機(jī)的不同之處 2021-02-05
高效管理工具是數(shù)據(jù)中心節(jié)能關(guān)鍵 2021-02-05
企業(yè)網(wǎng)站怎樣提高自身排名 2021-02-05
網(wǎng)站https證書種類有哪些？有什么區(qū)別 2021-02-05
小程序運(yùn)營(yíng)方案：如何推廣小程序，這里有42個(gè)入口供你選擇！ 2021-02-05

機(jī)器學(xué)習(xí)過(guò)程的三個(gè)坑，看看你踩過(guò)哪一個(gè)

機(jī)器學(xué)習(xí)過(guò)程的三個(gè)坑，看看你踩過(guò)哪一個(gè)

機(jī)器學(xué)習(xí)過(guò)程的三個(gè)坑，看看你踩過(guò)哪一個(gè)