可編輯神經(jīng)網(wǎng)絡(luò)有什么積極意義
深度學習是一個計算繁重的過程。 降低成本一直是 Data curation 的一大挑戰(zhàn)。 關(guān)于深度學習神經(jīng)網(wǎng)絡(luò)大功耗的訓練過程,已經(jīng)有研究人員發(fā)表了其碳足跡(溫室氣體排放集合)的報告。
情況只會越來越復雜,因為我們正迎來一個充斥著大量的機器學習應(yīng)用程序的未來。但所幸的是,我們也看到一些能夠讓訓練神經(jīng)網(wǎng)絡(luò)的過程變得更高效的策略正在被發(fā)明出來。
以更改單個輸入來更新神經(jīng)網(wǎng)絡(luò)的預測可能會降低其他輸入的性能。 當前,業(yè)內(nèi)通常使用兩種解決方法:
1、在原始數(shù)據(jù)集上重新訓練模型,并補充解決錯誤的樣本;
2、使用手動緩存(例如查找表)來代替對有問題的樣本的模型預測;
雖然簡單,但是這種方法對于輸入中的細微變化并不穩(wěn)健。 例如,在自然語言處理任務(wù)中,它不會概括出同一對象的不同觀點或釋義。 因此,在ICLR 2020的一篇正在審核的論文中,尚未公開姓名的作者提出了一種稱為“可編輯訓練”的替代方法。
神經(jīng)網(wǎng)絡(luò)的“修補”
可編輯神經(jīng)網(wǎng)絡(luò)也屬于元學習范例,因為它們基本上是“學習允許有效修補”。
有效的神經(jīng)網(wǎng)絡(luò)修補問題不同于持續(xù)學習,因為研究人員認為,可編輯的訓練設(shè)置本質(zhì)上不是順序的。
在這種情況下進行編輯意味著在不影響其他輸入的情況下,更改輸入對子集的模型預測(與錯誤分類的對象相對應(yīng))。
為此,構(gòu)想出了編輯器功能,即一種給定約束的參數(shù)功能。 換句話說,非正式地,這是一個調(diào)整參數(shù)以滿足給定約束的函數(shù),該約束的作用是強制執(zhí)行模型行為所需的更改。
對于圖像分類實驗,使用標準訓練/測試分割獲取小的CIFAR-10數(shù)據(jù)集。訓練數(shù)據(jù)集進一步增加了隨機裁剪和隨機水平翻轉(zhuǎn)。
在此數(shù)據(jù)集上訓練的所有模型都遵循ResNet-18架構(gòu),并使用具有默認超參數(shù)的Adam優(yōu)化器。
為深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)Edit的自然方法是使用梯度下降。 根據(jù)作者的觀點,標準的梯度下降編輯器可以用動量(momentum)、自適應(yīng)學習率(adapTIve learning rates)進一步增強。
但是,在許多實際情況下,絕大部分這些編輯都不會發(fā)生。 例如,比起“卡車”或“船”,以前被分類為“飛機”的圖像更有可能需要編輯為“鳥”。 為了解決這個問題,作者采用了自然對抗樣本(NAE)數(shù)據(jù)集。
該數(shù)據(jù)集包含7500個自然圖像,這些圖像很難用神經(jīng)網(wǎng)絡(luò)進行分類。 如果不進行編輯,經(jīng)過預訓練的模型可以正確地預測NAE中不到1%的數(shù)據(jù),但是正確的答案可能在按預測概率排序的前100個類別中。
總結(jié)
可編輯訓練與對抗訓練有些相似,后者是對抗攻擊防御的主要方法。 這里的重要區(qū)別在于,可編輯訓練旨在學習模型,可以有效地糾正某些樣本上的行為。
同時,對抗訓練會產(chǎn)生對某些輸入擾動具有魯棒性的模型。 但人們可以使用可編輯訓練來針對合成和自然對抗示例有效地覆蓋模型漏洞。
在許多深度學習應(yīng)用程序中,單個模型錯誤可能導致毀滅性的財務(wù)、名譽乃至生命危險。 因此,至關(guān)重要的是要盡快糾正出現(xiàn)的模型錯誤。
可編輯訓練,一種與模型無關(guān)的訓練技術(shù),可鼓勵對訓練后的模型進行快速編輯,并且這種方法的有效性對于大規(guī)模圖像分類和機器翻譯任務(wù)也很有希望。
來源:愛吧機器人網(wǎng)





