AI的進階：谷歌人工智能聰明過人腦？

時間：2020-08-26 10:27:02

關(guān)鍵字：人工智能物聯(lián)網(wǎng) 谷歌

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 　　人機圍棋大戰(zhàn)第二局，AlphaGo一手落向空白區(qū)域的37驚呆了世界——李世石看到后離開了，遠程觀看并解說的雷德蒙同樣震撼。這個西方唯一的九段棋手表示，“我

　　人機圍棋大戰(zhàn)第二局，AlphaGo一手落向空白區(qū)域的37驚呆了世界——李世石看到后離開了，遠程觀看并解說的雷德蒙同樣震撼。這個西方唯一的九段棋手表示，“我真的不知道這是一步好棋還是壞棋。”而與此同時，美國圍棋協(xié)會通訊副總裁英語解說員克里斯·加洛克則表示，“這是一個錯誤。”

　　這一步李世石長考了大約二十分鐘，但四個多小時候，他還是輸了。后來的后來，在這場人機大戰(zhàn)中，鏈接了數(shù)百個分布在世界各地的谷歌數(shù)據(jù)中心的AI程序，擊敗了可能是有史以來人類設計的最復雜的游戲中最好的選手。

　　對37手同樣產(chǎn)生疑惑的是樊麾，他不只是曾經(jīng)5比0輸給AlphaGo的歐洲圍棋冠軍，而且從那以后，他成為了AlphaGo的陪練。與李世石交戰(zhàn)前的五個多月里，樊麾與AlphaGo進行了上百盤比賽。他看著AlphaGo一天天地長大。樊麾失敗的次數(shù)越來越多，但他是最了解AlphaGo的人?？粗鳤lphaGo的第37手，他深知這其中一定有常人難以理解的地方，計算10秒后，他表示“竟是如此妙手”。

　　對，大多數(shù)人認為，AlphaGo的勝利是計算力的強勢碾壓，然而，第37手證明AlphaGo不只是計算，它表現(xiàn)出一定程度理解圍棋的能力，就像人類棋手一樣，具有“棋感”。所以，37手具有歷史性的意義，它表明機器和人類終于開始有了真正融合的一天。

　　AlphaGo創(chuàng)始人哈薩比斯1976年生于倫敦，他4歲開始接觸國際象棋，13歲晉身“大師級”（chess master），在14歲以下棋手中名列世界第二。AlphaGo團隊的領(lǐng)導者席爾瓦說道，“我曾見他出現(xiàn)在我們鎮(zhèn)上，贏得了比賽，然后離開。” 他們兩人在劍橋讀本科時正式見了面。為了了解人類的思維，研究機器是否也能變得智能，兩人的專業(yè)都是計算神經(jīng)科學。哈薩比斯在倫敦大學學院（UCL）攻讀認知神經(jīng)科學博士課程時，主攻腦部負責導航、回憶及想像的海馬回（hippocampus），為打造思考方式更近似人類的電腦打下基礎，他提出的新理論獲《科學》雜志評為2007年十大科技突破。

　　1997年IBM深藍電腦擊敗國際象棋冠軍時，正好是哈薩比斯在劍橋大學攻讀電腦科學的時候。那時他在劍橋內(nèi)第一次接觸到圍棋——這個已有千年歷史的棋類運動，而剛剛接觸圍棋的哈薩比斯忍不住思考：為什么機器從未破解這種智力游戲？也因為如此，哈薩比斯暗下決心，希望做出一個下圍棋勝過人類的電腦系統(tǒng)。用博弈論的術(shù)語講，圍棋與國際象棋和西洋跳棋一樣，是一種完全信息博弈游戲——毫無運氣可言，信息完全公開。通常來說，電腦應該輕松就能將其掌握，但其就是攻克不下圍棋。

　　哈薩比斯表示，在圍棋中，無論是人類還是機器都無法算出每一步的最終結(jié)果，頂級棋手靠的是直覺，而非硬算——即是棋感。“圍棋布局講究美學，好的布局看起來充滿美感。”

　　1998年，兩人畢業(yè)后合開了一家電子游戲公司。游戲是檢驗人工智能的好辦法。但在2005年，他們的游戲公司倒閉了。席爾瓦去了阿爾伯塔大學研究人工智能的初級形式——增強學習。增強學習技術(shù)讓機器可以重復同樣的任務，找出效果最佳的決策，從而實現(xiàn)自主學習。哈薩比斯則去到了英國倫敦大學學院，獲得了神經(jīng)系統(tǒng)學的博士學位。兩人的專業(yè)都是計算神經(jīng)科學，為了研究機器是否也能變得智能。2010年，他們再次相聚——哈薩比斯在倫敦成立了一個名為DeepMind的人工智能公司，席爾瓦則加入了他。

　　當谷歌CEO布林遇見哈薩比斯時，哈薩比斯說：“幾年內(nèi)，DeepMind或許能打敗世界圍棋冠軍。”連以遠見卓著的布林也覺得不可思議，但他們做到了。

　　人機大戰(zhàn)第二局結(jié)束后，席爾瓦進入AlphaGo的控制室，監(jiān)控其運行是否正常，并跟蹤它對每場對弈結(jié)局的預測有何變化。席爾瓦調(diào)出了AlphaGo在對弈期間做出的決策記錄，查看AlphaGo在下出第37手的前一刻發(fā)生了什么。

　　在DeepMind和AlphaGo出現(xiàn)之前，機器下棋都依靠暴力破解的方法，即窮舉，IBM的深藍用的就是這種。當時，深藍也走出了人類意料之外的一步，但是，暴力計算解決不了圍棋。圍棋有太多變化，電腦都無法硬算。

　　所以，DeepMind只能另辟蹊徑——機器學習。

　　DeepMind團隊將3000萬步人類下出的圍棋步法輸入到一個深度神經(jīng)網(wǎng)絡中。這個網(wǎng)絡模擬人腦中的神經(jīng)網(wǎng)，團隊也希望它能夠像人腦一樣思考，自主學習。比如Facebook的計算機視覺技術(shù)，谷歌的語音識別。觀察足夠多的貓，它就能認出貓；輸入足夠多的語言數(shù)據(jù)，它就能聽懂自然語言；同樣，輸入足夠多的棋譜，它也能學會如何下棋。但是，創(chuàng)意聯(lián)想與規(guī)則運用是兩碼事，比如37手并不在那3000萬步棋譜之中，那么它是如何做到的呢？事實上，AlphaGo還計算出，一名人類專業(yè)棋手下出這樣一步的概率大約只有萬分之一，但它還是選擇了這一步。

　　“它知道職業(yè)棋手這么下的幾率很低，但當它經(jīng)過自己的計算后，它可以推翻原先輸入的棋譜參考，”席爾瓦解釋道，從某種意義上來說，AlphaGo開始自主思考。它做出的決定不是以其創(chuàng)造者在其數(shù)字DNA中編入的規(guī)則為基礎的，而是以其自學的算法為基礎的。

　　讓它自己學會了下棋后，席爾瓦讓AlphaGo和自己對弈——一個與其版本不一樣的神經(jīng)網(wǎng)絡。在自我對弈訓練過程中，AlphaGo記錄起那些最優(yōu)的走法——這就是席爾瓦曾研究的增強學習技術(shù)。

　　給自己打譜——這是棋力提高的有效方法，但這是部分技巧。懂得分析局面、有了邏輯計算還不夠，在茫茫棋盤中找到妙手還要靠直覺，就是根據(jù)棋形進行的感性預測。在增強學習技術(shù)實現(xiàn)后，席爾瓦的團隊將這些非人類圍棋步法輸入到第二個神經(jīng)網(wǎng)絡中，教它像深藍那樣預測國際象棋棋局一樣預測圍棋的棋局。將其與自己對弈多場后收集到的所有信息輸進去后，AlphaGo開始可以預測一場圍棋對弈可能展開的方式。這便是直覺。比如AlphaGo的37手。即使回到后臺查看過程的席爾瓦，也無法知道AlphaGo是如何得出這個結(jié)果——這就是棋感的形成。

　　AlphaGo是 DeepMind 跨入 AI 領(lǐng)域的重要一步，但對于“AI取代人類論”，哈薩比斯表示無需擔心，在他看來，AI是一個工具，一個結(jié)構(gòu)智慧，讓人類更好的工具。雖然AlphaGo目前有這樣的能力，但它未必真的知道“自己”在做什么。所以，利用這樣一個工具，哈薩比斯又是如何設想未來5年的AI世界的呢？谷歌花6.5億美元收購一家公司，不會只是玩一場棋牌游戲。

　　有了深度學習和自主思維能力，AlphaGo今天可以下棋，明天就可以學設計。深度學習和神經(jīng)網(wǎng)絡支撐著十多項由谷歌提供的服務，包括它那無所不能的搜索引擎。AlphaGo另一個不那么秘密的武器——增強學習已經(jīng)在教導該公司的實驗室機器人們拿起并移動各種物品。

　　但是，商業(yè)問題并不是最重要的。當詢問哈薩比斯，看見李世石輸了比賽他作何感想時，他指著心口說：“我很難過。” 看到自己創(chuàng)造的成果他感到驕傲，但出于人類本能，他感到難過，他希望李世石能夠贏下一局。