《電子技術應用》
您所在的位置:首頁 > 可編程邏輯 > 解決方案 > ImageNet分類器可以泛化到ImageNet上嗎?

ImageNet分類器可以泛化到ImageNet上嗎?

2019-02-27

當前的分類模型泛化到新數據時總會有不同程度的準確率下降,傳統觀點認為這種下降與模型的適應性相關。但本文通過實驗證明,準確率下降的原因是模型無法泛化到比原始測試集中更難分類的圖像上。


機器學習的首要目標是生成泛化模型。我們常通過測量模型在測試集上的性能來量化模型的泛化能力。在測試集上的良好性能是指什么?至少在遵循相同的數據清理協議時,模型在由相同數據源組成的新測試集上也能表現良好。


在本文中,研究人員通過復制兩個重要基線數據集(CIFAR-10 和 ImageNet)的創建過程來實現這一實驗。與理想結果相反,他們發現很多分類模型未能達到其原始的準確率分數。CIFAR-10 的準確率下降了 3%~15%,ImageNet 的準確率下降了 11%~14%。在 ImageNet 上,損失的準確率大概需要機器學習研究高度活躍時期五年的進步來彌補。


傳統觀點認為,出現這種下降的原因是模型已經適應了原始測試集中的特定圖像,例如,通過廣泛的超參數調整。然而,本文的實驗表明,模型的相對順序在新測試集上幾乎保持不變:在原始測試集上具有最高準確率的模型仍然是新測試集上具有最高準確率的模型。而且,準確率方面也沒有遞減。實際上,原始測試集上的準確率每提高一個百分點都意味著新測試集上更大的改進。因此,雖然后來的模型本可以更好地適應測試集,但它們的準確率下降較小。實驗結果證明,全面的測試集評估是改進圖像分類模型的有效方法。因此,自適應性不太可能是準確率下降的原因。


相反,研究人員基于原始和新測試集的相對難度提出了另一種解釋。他們證明,如果新數據集只包含候選池中最簡單的圖像,幾乎可以完全恢復原始的 ImageNet 準確率。這表明即使是最好的圖像分類器,其準確率分數也對數據清理過程的細節高度敏感。它還表明,即使在精心控制的重復性實驗的良性環境中,目前的分類器仍然不能可靠地泛化。


圖 1 顯示了實驗的主要結果。為了支持未來研究,研究人員還發布了新的測試集和相應的代碼。

微信圖片_20190227204524.jpg

圖 1:在原始測試集和新測試集上的模型準確率。每個數據點對應于測試平臺中的一個模型(顯示為 95%的 Clopper-Pearson 置信區間)。該圖揭示了兩個主要現象:1)從原始測試集到新測試集的準確率明顯下降。2)模型準確率遵循斜率大于 1 的線性函數(CIFAR-10 為 1.7,ImageNet 為 1.1)。這意味著原始測試集上的每個百分點的改進會轉換為新測試集上超過一個百分點的改進。從上圖可以直觀地對比兩邊的斜率。紅色區域是 10 萬個 bootstrap 樣本線性擬合的 95%置信區域。


論文:Do ImageNet Classifiers Generalize to ImageNet?

微信圖片_20190227204546.jpg


論文地址:http://people.csail.mit.edu/ludwigs/papers/imagenet.pdf



摘要:我們為 CIFAR-10 和 ImageNet 數據集構建了新的測試集。這兩個基準測試集近十年來一直是研究的焦點,增加了過度重復使用測試集的風險。通過密切關注原始數據集創建過程,我們測試了當前分類模型泛化到新數據的程度。我們評估了大量模型,發現在 CIFAR-10 上的準確率下降了 3%~15%,在 ImageNet 上的準確率下降了 11%~14%。但是,原始測試集上準確率的改進能夠為新測試集帶來更大的改進。結果表明,準確率下降不是由適應性造成的,而是由于模型無法泛化到比原始測試集中更難分類的圖像上。


實驗總結


可重復性實驗的主要步驟如下。附錄 B 和 C 詳細地描述了此方法。第一步是選擇信息性數據集。

微信圖片_20190227204603.jpg

表 1:原始 CIFAR-10 測試集、原始 ImageNet 驗證集和新測試集上的模型準確率。ΔRank 是所有模型完整排序中從原始測試集到新測試集的排名相對差異(參見附錄 B.3.3 和 C.4.4)。例如,ΔRank= -2 意味著與原始測試集相比,新測試集上的模型下降了兩名。置信區間為 95%的 Clopper-Pearson 區間。由于篇幅限制,模型的參考資料見附錄 B.3.2 和 C.4.3。

微信圖片_20190227204629.jpg

表 2:三種采樣策略對 ImageNet 測試集的影響。該表顯示了結果數據集中的平均 MTurk 選擇頻率,以及與原始驗證集相比模型準確率的平均變化。所有三個測試集的平均選擇頻率都超過 0.7,但模型準確率仍然相差很大。相比之下,在 MTurk 實驗中,原始 ImageNet 驗證集的平均選擇頻率為 0.71。在 top-1 和 top-5 中,平均準確率的變化分別為 14%和 10%。這表明采樣策略的細節對結果的準確率有很大影響。

微信圖片_20190227204646.jpg

圖 2:原始 ImageNet 驗證集上的模型準確率 vs. 新測試集的兩個變體上的準確率。每個數據點對應于測試平臺中的一個模型(顯示為 95%的 Clopper-Pearson 置信區間)。閾值為 0.7 時,模型準確率比在原始測試集上低了 3%。在 MTurk 工作人員最常選擇圖像的 TopImages 上,模型的性能比在原始測試集上提高了 2%。兩個數據集的準確率都遵循線性函數規律,類似于圖 1 中的 MatchedFrequency。紅色陰影區域是 10 萬個 bootstrap 樣本線性擬合的 95%置信區域。


本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 日韩三级免费电影| 精品丝袜国产自在线拍亚洲| 在线观看日韩一区| 久久久久99精品成人片试看| 欧美日韩在线一区二区三区| 后入内射欧美99二区视频| 久久亚洲最大成人网4438| 在线观看免费a∨网站| 中文字幕一级片| 最近中文字幕mv在线视频www| 亚洲视屏在线观看| 羞羞答答www网址进入在线观看| 国产热re99久久6国产精品| 99国内精品久久久久久久| 成人片黄网站色大片免费观看app| 乱子伦一级在线观看高清| 污污网站免费入口链接| 午夜寂寞视频无码专区| 韩国18福利视频免费观看| 国产精品女同一区二区| avtt天堂网手机版亚洲| 成人无码A级毛片免费| 久久夜色精品国产噜噜| 欧美又大粗又爽又黄大片视频 | 亚洲欧美日韩精品久久| 精品无码久久久久久久久久| 国产在线a不卡免费视频| 香蕉视频黄色在线观看| 大地资源视频在线观看| 一级毛片直播亚洲| 日本一卡精品视频免费| 亚欧免费视频一区二区三区| 欧美污视频网站| 人妻无码久久一区二区三区免费 | 日本久久综合久久综合| 亚洲av无码一区二区三区电影| 欧美视频免费在线观看| 你懂得视频在线观看| 美国人与动性xxx杂交视频| 国产亚洲精品bt天堂精选| 国色天香网在线|