關(guān)于深度學(xué)習(xí)現(xiàn)狀的不樂觀分析
深度學(xué)習(xí)雖然到現(xiàn)在依然火熱,Gary Marcus 卻向我們潑了冷水,Gary Marcus 表示別忽視深度學(xué)習(xí)的種種問題,其實(shí)深度學(xué)習(xí)的現(xiàn)狀一點(diǎn)都不樂觀,我們還有許多的難題沒有解決,學(xué)到的知識并不深入而且很難遷移。
紐約大學(xué)心理學(xué)教授 Gary Marcus 曾是 Uber 人工智能實(shí)驗(yàn)室的負(fù)責(zé)人,他自己創(chuàng)立的人工智能創(chuàng)業(yè)公司 Geometric Intelligence 2016 年 12 月被 Uber 收購,自己也就加入 Uber 幫助他們建立人工智能實(shí)驗(yàn)室。Gary Marcus 也曾號召研究人員們「借用認(rèn)知科學(xué)領(lǐng)域的知識」,更多地構(gòu)建和人類類似的認(rèn)識概念。
然而 Gary Marcus 卻不是一個(gè)令人深受鼓舞的「正面人物」,實(shí)際上他曾反復(fù)對人工智能和深度學(xué)習(xí)潑冷水,警告大家我們現(xiàn)在取得的進(jìn)展多么微不足道、人們又有多么過于樂觀。
圣誕-元旦長假剛過,Gary Marcus 在 arXiv 上傳了一篇論文,對現(xiàn)在火熱的深度學(xué)習(xí)的現(xiàn)狀進(jìn)行了全面的、而且一點(diǎn)都不樂觀的分析。他在論文中針對現(xiàn)在火熱的深度學(xué)習(xí)指出了十個(gè)問題,小編把這十個(gè)問題簡單介紹如下:
一,渴求大量的數(shù)據(jù)
人類學(xué)可以根據(jù)明確的規(guī)律學(xué)習(xí),比如學(xué)會(huì)一元二次方程的三種形式以后就可以用來解各種題目;也可以從不多的幾個(gè)樣本中迅速學(xué)到隱含的規(guī)律,見過了京巴、柴犬之后,再見到德牧就知道它也是一種狗。然而深度學(xué)習(xí)不是這樣的,「越多的數(shù)據(jù) = 越好的模型表現(xiàn)」就是深度學(xué)習(xí)的基本規(guī)律,它沒有能力從字面上給出的規(guī)律學(xué)習(xí)。
對企業(yè)來說,IT 巨頭在深度學(xué)習(xí)時(shí)代更容易憑更大的數(shù)據(jù)量建立起馬太效應(yīng),第二梯隊(duì)的競爭者們已經(jīng)開始感到擔(dān)憂。學(xué)者們也對此不是很樂觀,Geoffrey Hinton 在近期的膠囊論文中也提到「卷積網(wǎng)絡(luò)在新類別上泛化能力的困難度……要么在網(wǎng)格中復(fù)制特征檢測器,網(wǎng)格的大小隨著維度數(shù)目指數(shù)增長,要么同樣以指數(shù)方式增加的標(biāo)注訓(xùn)練集的大小」。對于可用的數(shù)據(jù)有限的場合,深度學(xué)習(xí)往往并不是最佳的選擇。
二,學(xué)到的知識并不深入而且很難遷移我們都知道深度學(xué)習(xí)的「深」指的是網(wǎng)絡(luò)的層數(shù)深、隱層數(shù)目多,而人類喜歡且崇敬的對事物運(yùn)行規(guī)律的深刻總結(jié)則在深度學(xué)習(xí)中無處可尋。
即便對于需要和環(huán)境交互、理應(yīng)更好地認(rèn)識到環(huán)境規(guī)律的強(qiáng)化學(xué)習(xí)模型,一旦環(huán)境發(fā)生任何變化,它們也仍然需要重新適應(yīng)——它們其實(shí)沒有真的理解「墻」是什么、「通道」是什么。除了 DeepMind 的玩 Atari 游戲的強(qiáng)化學(xué)習(xí)模型表現(xiàn)出了這樣的特點(diǎn),其它許多研究者在各自的研究領(lǐng)域中也都觀察到了輕微改變輸入數(shù)據(jù)就會(huì)造成輸出結(jié)果有巨大差別的現(xiàn)象。
深度學(xué)習(xí)模型學(xué)到的數(shù)據(jù)模式,看起來要比我們認(rèn)為的弱得多。
三,難以處理層次化的結(jié)構(gòu)舉例來說,對多數(shù)深度學(xué)習(xí)語言模型來說,句子就是一串單詞而已,然而在語言學(xué)家眼中,句子是有固有的層次結(jié)構(gòu)的;英文長句中的定語從句就是一類經(jīng)典的例子,同樣是結(jié)構(gòu)基本完整的句子,從層次結(jié)構(gòu)角度講卻只是某一個(gè)詞或者詞組的補(bǔ)充說明。
深度學(xué)習(xí)對于各種層次化的結(jié)構(gòu)都無能為力。人類可以把「煮米飯」這個(gè)目標(biāo)拆分成「淘米、加水、設(shè)火力時(shí)間」幾個(gè)動(dòng)作逐個(gè)完成,游戲 AI 也有需求找到單個(gè)操作和全局戰(zhàn)略之間的平衡和協(xié)調(diào)。然而深度學(xué)習(xí)是提供不了層次化的理解、總結(jié)、控制等等能力的,它本身學(xué)到的特征就是「平坦」的,或者說是非層次化的,每個(gè)特征都只是清單中的一項(xiàng)。所以深度學(xué)習(xí)系統(tǒng)自身沒有能力表示出層次化結(jié)構(gòu),嘗試用一些技巧提取層次化結(jié)構(gòu)的 Word2Vec 之類的模型就馬上可以脫穎而出。
然而考慮到多數(shù)任務(wù)、多數(shù)數(shù)據(jù)、多數(shù)電氣系統(tǒng)都有顯而易見的層次結(jié)構(gòu)(這甚至就是人類構(gòu)建實(shí)用系統(tǒng)的基本思路),深度學(xué)習(xí)在它們之上的表現(xiàn)都還很值得懷疑。
四,對于開放性推理問題愛莫能助
人類在看過書籍電影之后總能對其中的轉(zhuǎn)折和故事發(fā)展提出不同于原作的見解、對作者的暗示提出種種猜想,然而即便是在 SQuAD 問答數(shù)據(jù)集上表現(xiàn)最好的模型,也只能是在給定的文本中找到最相關(guān)的詞句然后把它們進(jìn)行組合而已,完全沒有創(chuàng)新和理解暗示的能力。即便已經(jīng)有研究者做出了嘗試,目前來說也沒有任何深度學(xué)習(xí)系統(tǒng)基于真實(shí)知識做開放性推理的能力可以和人類相提并論。





