輕量php框架模型更新了！大規(guī)模視覺表征學習的新時代來了php框架教程

2023-11-11 分類：網(wǎng)站建設

模型已更新！

經(jīng)過數(shù)十年的基礎研究，視覺識別領域迎來了大規(guī)模視覺表示學習的新時代。預訓練的大規(guī)模視覺模型已成為特征學習和視覺應用的基本工具。視覺表示學習系統(tǒng)的性能在很大程度上受三個主要因素的影響：模型的神經(jīng)網(wǎng)絡架構(gòu)、用于訓練網(wǎng)絡的方法和訓練數(shù)據(jù)。每個因素的改進都有助于模型整體性能的提高。

神經(jīng)網(wǎng)絡架構(gòu)設計的創(chuàng)新一直在表示學習領域發(fā)揮著重要作用。創(chuàng)新互聯(lián)架構(gòu)（）對計算機視覺研究產(chǎn)生了重大影響，使得在各種視覺識別任務中使用通用特征學習方法成為可能，而無需依賴人工實現(xiàn)的特征工程。近年來，最初為自然語言處理而開發(fā)的架構(gòu)因其對不同規(guī)模的模型和數(shù)據(jù)集的適用性而開始廣泛應用于其他深度學習領域。

架構(gòu)的出現(xiàn)使傳統(tǒng)架構(gòu)現(xiàn)代化，表明純卷積模型也可以適應模型和數(shù)據(jù)集的規(guī)模變化。然而，探索神經(jīng)網(wǎng)絡架構(gòu)設計空間的最常用方法仍然是監(jiān)督學習的性能基準測試。

另一種思路是將視覺表示學習的重點從標記監(jiān)督學習轉(zhuǎn)移到自我監(jiān)督預訓練。自監(jiān)督算法將掩碼語言建模引入視覺領域，并迅速成為視覺表示學習的流行方法。然而，自我監(jiān)督學習通常使用專為監(jiān)督學習設計的架構(gòu)，并假設該架構(gòu)是固定的。例如，掩碼自動編碼器 (MAE) 使用視覺架構(gòu)。

一種方法是將這些架構(gòu)與自我監(jiān)督學習框架相結(jié)合，但面臨一些特定問題。例如，當與 MAE 結(jié)合時會出現(xiàn)一個問題：MAE 具有針對序列處理能力優(yōu)化的特定編碼器-解碼器設計，這使得計算密集型編碼器專注于那些可見的，從而降低預訓練成本。但這種設計可能與使用密集滑動窗口的標準設計不兼容。此外，如果不考慮架構(gòu)與訓練目標之間的關系seo優(yōu)化，是否可以實現(xiàn)最佳性能尚不清楚。事實上，已經(jīng)表明使用基于掩碼的自監(jiān)督學習進行訓練是困難的，并且實驗證據(jù)表明，并且可能在特征學習中發(fā)散，影響最終表示的質(zhì)量。

為此，來自 Meta 和紐約大學的研究人員（包括一位作者劉莊和一位作者謝賽寧）提出在同一框架下共同設計網(wǎng)絡架構(gòu)和掩碼自動編碼器。這樣做的目的是讓基于mask的自監(jiān)督學習能夠擬合模型并得到媲美的結(jié)果。

論文地址：

在設計掩碼自動編碼器時，該研究將掩碼輸入視為稀疏集，并使用稀疏卷積來處理可見部分。這個想法的靈感來自于在處理大規(guī)模 3D 點云時使用稀疏卷積。具體來說，該研究提出實現(xiàn)稀疏卷積，然后在微調(diào)時，可以將權重轉(zhuǎn)換回標準的密集網(wǎng)絡層，無需特殊處理。為了進一步提高預訓練效率，本研究將解碼器替換為單個解碼器網(wǎng)站制作，使整個設計完全卷積。研究人員觀察到，加入這些變化后：學習到的特征是有用的，提高了基線結(jié)果，但微調(diào)后的性能仍然不如基礎模型。

然后，該研究分析了不同訓練配置的特征空間。當直接對屏蔽輸入進行訓練時，我們發(fā)現(xiàn) MLp 層中存在潛在的特征崩潰 ( ) 問題。為了解決這個問題，本研究提出添加一個全局響應歸一化層 ( ) 來增強通道之間的特征競爭。當使用屏蔽自動編碼器對模型進行預訓練時，這種改進最為有效，這表明在監(jiān)督學習中重用固定架構(gòu)設計可能不是最佳選擇。

基于以上改進，本研究提出了 V2，它在與掩碼自動編碼器結(jié)合時表現(xiàn)出更好的性能。同時，研究人員發(fā)現(xiàn)，V2 在各種下游任務上比 pure 有顯著的性能提升輕量php框架，包括上的分類任務、COCO 上的目標檢測和上的語義分割。

方法介紹

全卷積屏蔽自動編碼器

本研究中提出的方法在概念上很簡單，并且以完全卷積的方式運行。學習信號是通過以高掩蔽率隨機掩蔽原始視覺輸入，然后讓模型從其余部分預測缺失部分來生成的。整體框架如下圖所示。

該框架由一個基于稀疏卷積的編碼器和一個輕量級解碼器組成，其中自動編碼器的結(jié)構(gòu)是不對稱的。編碼器僅使用可見像素，而解碼器使用編碼像素和掩碼來重建圖像。同時，loss只在區(qū)域計算。

全局響應標準化

大腦中有許多促進神經(jīng)元多樣性的機制。例如，側(cè)抑制可以幫助增強激活神經(jīng)元的反應，增加單個神經(jīng)元對刺激的對比度和選擇性，同時還增加神經(jīng)元群體之間反應的多樣性。在深度學習中，這種形式的橫向抑制可以通過響應歸一化 ( ) 來實現(xiàn)。該研究引入了一個新的響應歸一化層輕量php框架，稱為全局響應歸一化 (GRN)，旨在提高跨通道的對比度和選擇性。 GRN 單元包括三個步驟：1）全局特征聚合，2）特征歸一化，以及 3）特征校準。如下圖所示，可以將GRN層合并到原始塊中。

研究人員根據(jù)實驗發(fā)現(xiàn)，在應用GRN時，不需要，可以刪除。使用這種新的塊設計，該研究創(chuàng)建了各種具有不同效率和容量的模型，他們將其稱為 V2 模型系列，從輕量級 (Atto) 到計算密集型 (Huge)。

為了評估 GRN 的效果，該研究使用該框架來預訓練 V2。從下圖 3 的可視化和圖 4 的余弦距離分析可以看出，V2 有效地緩解了特征崩潰問題。余弦距離值一直很高，說明可以通過網(wǎng)絡層傳輸保持特征多樣性。這類似于使用 MAE 預訓練的 ViT 模型。這表明在相似的掩碼圖像預訓練框架下，V2 的學習行為與 ViT 相似。

該研究進一步評估了微調(diào)性能，結(jié)果如下表所示。

當配備 GRN 時，預訓練模型可以顯著優(yōu)于使用 300 訓練的監(jiān)督模型。GRN 通過增強特征多樣性來提高表示質(zhì)量，這對于基于掩碼的預訓練至關重要，而 V1 模型中不存在。值得注意的是，這種改進是在沒有增加額外參數(shù)開銷的情況下實現(xiàn)的，也沒有增加 .

最后，該研究還檢驗了 GRN 在預訓練和微調(diào)中的重要性。如下表2(f)所示，無論是從fine-中移除GRN還是在fine-過程中加入新初始化的GRN，性能都明顯下降，這說明GRN在預訓練和微調(diào)中的重要性。

本文標題：輕量php框架模型更新了！大規(guī)模視覺表征學習的新時代來了php框架教程
轉(zhuǎn)載注明：http://www.bm7419.com/news3/293753.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站收錄、網(wǎng)站導航、做網(wǎng)站、App設計、云服務器、定制開發(fā)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

輕量php框架模型更新了！大規(guī)模視覺表征學習的新時代來了php框架教程

輕量php框架模型更新了！大規(guī)模視覺表征學習的新時代來了php框架教程