這篇文章主要介紹“機器學(xué)習(xí)常見面試題有哪些”,在日常操作中,相信很多人在機器學(xué)習(xí)常見面試題有哪些問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”機器學(xué)習(xí)常見面試題有哪些”的疑惑有所幫助!接下來,請跟著小編一起來學(xué)習(xí)吧!
10年積累的網(wǎng)站建設(shè)、做網(wǎng)站經(jīng)驗,可以快速應(yīng)對客戶對網(wǎng)站的新想法和需求。提供各種問題對應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識你,你也不認(rèn)識我。但先網(wǎng)站設(shè)計后付款的網(wǎng)站建設(shè)流程,更有邛崍免費網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。1.什么是偏差與方差?
泛化誤差可以分解成偏差的平方加上方差加上噪聲。偏差度量了學(xué)習(xí)算法的期望預(yù)測和真實結(jié)果的偏離程度,刻畫了學(xué)習(xí)算法本身的擬合能力,方差度量了同樣大小的訓(xùn)練集的變動所導(dǎo)致的學(xué)習(xí)性能的變化,刻畫了數(shù)據(jù)擾動所造成的影響,噪聲表達(dá)了當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差下界,刻畫了問題本身的難度。偏差和方差一般稱為bias和variance,一般訓(xùn)練程度越強,偏差越小,方差越大,泛化誤差一般在中間有一個最小值,如果偏差較大,方差較小,此時一般稱為欠擬合,而偏差較小,方差較大稱為過擬合。
2.采用 EM 算法求解的模型有哪些,為什么不用牛頓法或梯度下降法?
用EM算法求解的模型一般有GMM或者協(xié)同過濾,k-means其實也屬于EM。EM算法一定會收斂,但是可能收斂到局部最優(yōu)。由于求和的項數(shù)將隨著隱變量的數(shù)目指數(shù)上升,會給梯度計算帶來麻煩。
3.SVM、LR、決策樹的對比?
模型復(fù)雜度:SVM支持核函數(shù),可處理線性非線性問題;LR模型簡單,訓(xùn)練速度快,適合處理線性問題;決策樹容易過擬合,需要進行剪枝損失函數(shù):SVM hinge loss; LR L2正則化; adaboost 指數(shù)損失數(shù)據(jù)敏感度:SVM添加容忍度對outlier不敏感,只關(guān)心支持向量,且需要先做歸一化; LR對遠(yuǎn)點敏感數(shù)據(jù)量:數(shù)據(jù)量大就用LR,數(shù)據(jù)量小且特征少就用SVM非線性核
4.GBDT 和隨機森林的區(qū)別
隨機森林采用的是bagging的思想,bagging又稱為bootstrap aggreagation,通過在訓(xùn)練樣本集中進行有放回的采樣得到多個采樣集,基于每個采樣集訓(xùn)練出一個基學(xué)習(xí)器,再將基學(xué)習(xí)器結(jié)合。隨機森林在對決策樹進行bagging的基礎(chǔ)上,在決策樹的訓(xùn)練過程中引入了隨機屬性選擇。傳統(tǒng)決策樹在選擇劃分屬性的時候是在當(dāng)前節(jié)點屬性集合中選擇最優(yōu)屬性,而隨機森林則是對結(jié)點先隨機選擇包含k個屬性的子集,再選擇最有屬性,k作為一個參數(shù)控制了隨機性的引入程度。另外,GBDT訓(xùn)練是基于Boosting思想,每一迭代中根據(jù)錯誤更新樣本權(quán)重,因此是串行生成的序列化方法,而隨機森林是bagging的思想,因此是并行化方法。
5.xgboost怎么給特征評分?
在訓(xùn)練的過程中,通過Gini指數(shù)選擇分離點的特征,一個特征被選中的次數(shù)越多,那么該特征評分越高。
1. # feature importance
2. print(model.feature_importances_)
3. # plot
4. pyplot.bar(range(len(model.feature_importances_)), model.feature_importances_)
5. pyplot.show()
6. ==========
7. # plot feature importance
8. plot_importance(model)
9. pyplot.show()
# feature importance
print(model.feature_importances_)
# plot
pyplot.bar(range(len(model.feature_importances_)), model.feature_importances_)
pyplot.show()
==========
# plot feature importance
plot_importance(model)
pyplot.show()
6.什么是OOB?隨機森林中OOB是如何計算的,它有什么優(yōu)缺點?
bagging方法中Bootstrap每次約有1/3的樣本不會出現(xiàn)在Bootstrap所采集的樣本集合中,當(dāng)然也就沒有參加決策樹的建立,把這1/3的數(shù)據(jù)稱為袋外數(shù)據(jù)oob(out of bag),它可以用于取代測試集誤差估計方法。袋外數(shù)據(jù)(oob)誤差的計算方法如下:對于已經(jīng)生成的隨機森林,用袋外數(shù)據(jù)測試其性能,假設(shè)袋外數(shù)據(jù)總數(shù)為O,用這O個袋外數(shù)據(jù)作為輸入,帶進之前已經(jīng)生成的隨機森林分類器,分類器會給出O個數(shù)據(jù)相應(yīng)的分類,因為這O條數(shù)據(jù)的類型是已知的,則用正確的分類與隨機森林分類器的結(jié)果進行比較,統(tǒng)計隨機森林分類器分類錯誤的數(shù)目,設(shè)為X,則袋外數(shù)據(jù)誤差大小=X/O;這已經(jīng)經(jīng)過證明是無偏估計的,所以在隨機森林算法中不需要再進行交叉驗證或者單獨的測試集來獲取測試集誤差的無偏估計。
7.什么是機器學(xué)習(xí)?
機器學(xué)習(xí)是為了應(yīng)對系統(tǒng)程序設(shè)計,屬于計算機科學(xué)類的學(xué)科,它能根據(jù)經(jīng)驗進行自動學(xué)習(xí)和提高。例如:一個由程序操縱的機器人,它能根據(jù)從傳感器搜集到的數(shù)據(jù),完成一系列的任務(wù)和工作。它能根據(jù)數(shù)據(jù)自動地學(xué)習(xí)應(yīng)用程序。
8.機器學(xué)習(xí)與數(shù)據(jù)挖掘的區(qū)別
機器語言是指在沒有明確的程序指令的情況下,給予計算機學(xué)習(xí)能力,使它能自主的學(xué)習(xí)、設(shè)計和擴展相關(guān)算法。數(shù)據(jù)挖掘則是一種從非結(jié)構(gòu)化數(shù)據(jù)里面提取知識或者未知的、人們感興趣的圖片。在這個過程中應(yīng)用了機器學(xué)習(xí)算法。
9.什么是機器學(xué)習(xí)的過度擬合現(xiàn)象
在機器學(xué)習(xí)中,當(dāng)一個統(tǒng)計模型首先描述隨機誤差或噪聲,而不是自身的基本關(guān)系時,過度擬合就會出現(xiàn)。當(dāng)一個模型是過于復(fù)雜,過擬合通常容易被發(fā)現(xiàn),因為相對于訓(xùn)練數(shù)據(jù)類型的數(shù)量,參數(shù)的數(shù)量過于五花八門。那么這個模型由于過度擬合而效果不佳。
10.過度擬合產(chǎn)生的原因
由于用于訓(xùn)練模型的標(biāo)準(zhǔn)并不等同于判斷模型效率的標(biāo)準(zhǔn),這導(dǎo)致了產(chǎn)生過度擬合的可能性。
11.如何避免過度擬合
當(dāng)你使用較小的數(shù)據(jù)集進行機器學(xué)習(xí)時,容易產(chǎn)生過度擬合,因此使用較大的數(shù)據(jù)量能避免過度擬合現(xiàn)象。但是,當(dāng)你不得不使用小型數(shù)據(jù)集進行建模時,可以使用被稱為交叉驗證的技術(shù)。在這種方法中數(shù)據(jù)集被分成兩節(jié),測試和訓(xùn)練數(shù)據(jù)集,測試數(shù)據(jù)集只測試模型,而在訓(xùn)練數(shù)據(jù)集中,數(shù)據(jù)點被用來建模。
在該技術(shù)中,一個模型通常是被給定有先驗知識的數(shù)據(jù)集(訓(xùn)練數(shù)據(jù)集)進行訓(xùn)練,沒有先驗知識的數(shù)據(jù)集進行測試。交叉驗證的思想是:在訓(xùn)練階段,定義一個數(shù)據(jù)集用來測試模型。
12.什么是感應(yīng)式的機器學(xué)習(xí)?
感應(yīng)機器學(xué)習(xí)涉及由實踐進行學(xué)習(xí)的過程,能從一組可觀測到的例子的嘗試推導(dǎo)出普遍性規(guī)則。
13.什么是機器學(xué)習(xí)的五個流行的算法?
a. 決策樹
b. 神經(jīng)網(wǎng)絡(luò)(反向傳播)
c. 概率網(wǎng)絡(luò)
d.最鄰近法
e. 支持向量機
14.機器學(xué)習(xí)有哪些不同的算法技術(shù)?
在機器學(xué)習(xí)不同類型的算法技術(shù)是:
監(jiān)督學(xué)習(xí)
非監(jiān)督學(xué)習(xí)
半監(jiān)督學(xué)習(xí)
轉(zhuǎn)導(dǎo)推理(Transduction)
學(xué)習(xí)推理(Learning to Learn)。
15.在機器學(xué)習(xí)中,建立假設(shè)或者模型的三個階段指的是什么?
a.建模
b.模型測試
c.模型應(yīng)用。
16.什么是訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集?
在類似于機器學(xué)習(xí)的各個信息科學(xué)相關(guān)領(lǐng)域中,一組數(shù)據(jù)被用來發(fā)現(xiàn)潛在的預(yù)測關(guān)系,稱為“訓(xùn)練數(shù)據(jù)集”。訓(xùn)練數(shù)據(jù)集是提供給學(xué)習(xí)者的案例,而試驗數(shù)據(jù)集是用于測試由學(xué)習(xí)者提出的假設(shè)關(guān)系的準(zhǔn)確度。
17.請列出機器學(xué)習(xí)的各種方法?
機器學(xué)習(xí)的各種方法如下:
概念與分類學(xué)習(xí)(Concept Vs Classification Learning)。
符號與統(tǒng)計學(xué)習(xí)(Symbolic Vs Statistical Learning)。
歸納與分析學(xué)習(xí)(Inductive Vs Analytical Learning)。
18.什么是非監(jiān)督學(xué)習(xí)的功能?
求數(shù)據(jù)的集群
求出數(shù)據(jù)的低維表達(dá)
查找數(shù)據(jù)有趣的方向
有趣的坐標(biāo)和相關(guān)性
發(fā)現(xiàn)顯著的觀測值和數(shù)據(jù)集清理
19.什么是監(jiān)督學(xué)習(xí)的功能?
分類
語音識別
回歸
時間序列預(yù)測
注釋字符串
20.什么是算法獨立的機器學(xué)習(xí)?
機器學(xué)習(xí)在基礎(chǔ)數(shù)學(xué)領(lǐng)域獨立于任何特定分類器或者學(xué)習(xí)算法,被稱為算法獨立的機器學(xué)習(xí)。
更多的機器學(xué)習(xí)相關(guān)教程也會繼續(xù)更新!有相關(guān)學(xué)習(xí)需求的同學(xué)可以繼續(xù)關(guān)注,希望這些總結(jié)對大家有幫助!有不同見解的伙伴,可以留言!
到此,關(guān)于“機器學(xué)習(xí)常見面試題有哪些”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識,請繼續(xù)關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司網(wǎng)站,小編會繼續(xù)努力為大家?guī)砀鄬嵱玫奈恼拢?/p>
分享文章:機器學(xué)習(xí)常見面試題有哪些-創(chuàng)新互聯(lián)
網(wǎng)站路徑:http://bm7419.com/article0/dgdeoo.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供App開發(fā)、做網(wǎng)站、全網(wǎng)營銷推廣、網(wǎng)站維護、外貿(mào)建站、小程序開發(fā)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容