谷歌工程師淺談Bengio深度學(xué)習(xí)論文的重要性
掃描二維碼
隨時(shí)隨地手機(jī)看文章
《理解深度學(xué)習(xí)需要重新思考泛化》論文引起了人們的深思,也有很多人表示不解。也曾在Quora上討論過(guò)。Google Brain工程師Eric Jang認(rèn)為深度學(xué)習(xí)的工作機(jī)制,能促進(jìn)深度學(xué)習(xí)在生活周圍的應(yīng)用,Zhang et al.2016可能會(huì)成為一個(gè)重要的風(fēng)向標(biāo)。
2017年,很多機(jī)器學(xué)習(xí)研究人員都在試圖解決一個(gè)問(wèn)題:深度神經(jīng)網(wǎng)絡(luò)是如何運(yùn)作的?為什么它們能夠很好地解決實(shí)際問(wèn)題?
即使人們不太關(guān)心理論分析和代數(shù),但理解深度學(xué)習(xí)的工作機(jī)制,能夠幫助我們促進(jìn)深度學(xué)習(xí)在現(xiàn)實(shí)生活中的應(yīng)用。
論文《理解深度學(xué)習(xí)需要重新思考泛化》(Understanding deep learning requires rethinking generalizaTIon)展現(xiàn)了神經(jīng)網(wǎng)絡(luò)的一些有趣特征,特別需要指出的一點(diǎn)是,神經(jīng)網(wǎng)絡(luò)有足夠的能力來(lái)記憶隨機(jī)輸入的數(shù)據(jù)。在SGD優(yōu)化設(shè)置中,訓(xùn)練集誤差完全可以縮小到ImageNet大小的數(shù)據(jù)集。
這與以下經(jīng)典敘述背道而馳:“深度學(xué)習(xí)奇跡般地發(fā)現(xiàn)了低級(jí)、中級(jí)和高級(jí)特征,就像哺乳動(dòng)物大腦V1系統(tǒng)在學(xué)習(xí)壓縮數(shù)據(jù)時(shí)展現(xiàn)出的行為一樣。”
2012-2015年間,很多研究人員使用“歸納偏差”來(lái)解釋深度網(wǎng)絡(luò)如何減少測(cè)試誤差,暗示了某種形式的泛化。
但是,如果一個(gè)深度網(wǎng)絡(luò)能夠記憶隨機(jī)數(shù)據(jù),這表明由于歸納偏差也與記憶兼容,并不能完全解釋泛化能力,(例如卷積/池化架構(gòu),Dropout、batchnorm等正則化使用)。
這篇論文備受矚目的部分原因在于,它在ICLR評(píng)論中獲得了”Perfect score”和ICLR2017最佳論文獎(jiǎng)。這引發(fā)了人們的熱議,所以有一點(diǎn)反饋循環(huán)。我認(rèn)為這是一篇很好的論文,因?yàn)檫@篇論文提出了一個(gè)沒(méi)人問(wèn)過(guò)的問(wèn)題,并提供了強(qiáng)有力的實(shí)驗(yàn)證據(jù)來(lái)證明一些非常有趣的結(jié)果。
然而,我認(rèn)為深度學(xué)習(xí)界達(dá)成一致來(lái)判定一篇論文是否重要,還需要1-2年。尤其是對(duì)于那些非分析性、通過(guò)實(shí)證研究得出的結(jié)論。
Tapabrata Ghosh指出,一些研究人員認(rèn)為,盡管深度網(wǎng)絡(luò)有記憶功能,這可能并不是深度網(wǎng)絡(luò)在實(shí)踐中做的事。這是因?yàn)?ldquo;記住”有語(yǔ)義意義的數(shù)據(jù)集所需要的時(shí)間比記住隨機(jī)數(shù)據(jù)需要的時(shí)間更短,說(shuō)明深度網(wǎng)絡(luò)可以利用訓(xùn)練集中已有的語(yǔ)義規(guī)律。
我認(rèn)為Zhang et al.2016在理解深度網(wǎng)絡(luò)運(yùn)作方式上可能會(huì)成為一個(gè)重要的風(fēng)向標(biāo),但并沒(méi)有解決深度網(wǎng)絡(luò)泛化的問(wèn)題。也許馬上就會(huì)有人挑戰(zhàn)這篇論文的觀點(diǎn)。這就是實(shí)驗(yàn)科學(xué)的本質(zhì)。
簡(jiǎn)而言之,這篇論文被認(rèn)為非常重要,是因?yàn)檎宫F(xiàn)了深度學(xué)習(xí)以記憶的方式學(xué)習(xí)隨機(jī)數(shù)據(jù)庫(kù)。然后提出了深度網(wǎng)絡(luò)如何學(xué)習(xí)非隨機(jī)數(shù)據(jù)集的問(wèn)題。
以下是我對(duì)于泛化問(wèn)題的意見(jiàn):
具有良好優(yōu)化目標(biāo)的高容量參數(shù)模型像海綿一樣吸收數(shù)據(jù)。我認(rèn)為深度網(wǎng)絡(luò)優(yōu)化目標(biāo)非常“懶惰“但功能強(qiáng)大:在提供正確模型偏差并與輸入數(shù)據(jù)兼容的情況下,深度網(wǎng)絡(luò)能夠具有語(yǔ)義意義的特征層次結(jié)構(gòu)。但如果不方便優(yōu)化,深度學(xué)習(xí)網(wǎng)絡(luò)將會(huì)以只記憶數(shù)據(jù)的方式進(jìn)行優(yōu)化。
現(xiàn)在我們?nèi)鄙俚氖强刂朴洃洺潭葀s泛化程度的方法,還有無(wú)法使用像權(quán)重正則化和dropout這樣強(qiáng)力的工具。





