人工智能的發(fā)展熱點是如何來的

時間：2020-05-11 11:27:01

關(guān)鍵字：人工智能機(jī)器學(xué)習(xí) 計算機(jī)視覺神經(jīng)網(wǎng)絡(luò)

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀] 2019世界人工智能大會，工作人員演示一款基于5G網(wǎng)絡(luò)實現(xiàn)遠(yuǎn)程控制的機(jī)器人。新華社發(fā) ?智能“小冰”在創(chuàng)作繪畫。新華社發(fā) 近期，清華大學(xué)-中國工程院知識智能聯(lián)合研究中心

2019世界人工智能大會，工作人員演示一款基于5G網(wǎng)絡(luò)實現(xiàn)遠(yuǎn)程控制的機(jī)器人。新華社發(fā)

?智能“小冰”在創(chuàng)作繪畫。新華社發(fā)

近期，清華大學(xué)-中國工程院知識智能聯(lián)合研究中心、中國人工智能學(xué)會吳文俊人工智能科學(xué)技術(shù)獎評選基地聯(lián)合發(fā)布了《2019人工智能發(fā)展報告》，遴選了13個人工智能的重點領(lǐng)域，包括深度學(xué)習(xí)、計算機(jī)視覺、語音識別、機(jī)器人等熱點前沿技術(shù)的基礎(chǔ)及應(yīng)用研究、發(fā)展動向等。

深度學(xué)習(xí)讓圖像、語音等感知類問題取得突破

機(jī)器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科，專門研究計算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為，以獲取新的知識或技能。

1950年，阿蘭·圖靈創(chuàng)造了圖靈測試來判定計算機(jī)是否智能。圖靈測試認(rèn)為，如果一臺機(jī)器能夠與人類展開對話而不能被辨別出其機(jī)器身份，那么稱這臺機(jī)器具有智能。這一簡化使得圖靈能夠令人信服地說明“思考的機(jī)器”是可能的。

后來，IBM科學(xué)家亞瑟·塞繆爾開發(fā)的跳棋程序，駁倒了普羅維登斯提出的機(jī)器無法超越人類的論斷，像人類一樣寫代碼和學(xué)習(xí)的模式，他創(chuàng)造了“機(jī)器學(xué)習(xí)”這一術(shù)語。

然而，從20世紀(jì)60年代中期到70年代末期，機(jī)器學(xué)習(xí)的發(fā)展步伐幾乎停滯。無論是理論研究還是計算機(jī)硬件限制，整個人工智能領(lǐng)域的發(fā)展都遇到了很大的瓶頸，神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)機(jī)因理論缺陷也未能達(dá)到預(yù)期效果而轉(zhuǎn)入低潮。直到偉博斯在神經(jīng)網(wǎng)絡(luò)反向傳播（BP）算法中具體提出了多層感知機(jī)模型，機(jī)器學(xué)習(xí)得以重振，并且直到今天BP算法仍然是神經(jīng)網(wǎng)絡(luò)架構(gòu)的關(guān)鍵因素。

神經(jīng)網(wǎng)絡(luò)研究人員相繼提出了使用BP算法訓(xùn)練的多參數(shù)線性規(guī)劃的理念，成為后來深度學(xué)習(xí)的基石。在另一個譜系中，昆蘭提出了一種非常出名的機(jī)器學(xué)習(xí)算法，具體地說是ID3算法，這種算法至今仍然活躍在機(jī)器學(xué)習(xí)領(lǐng)域中。

機(jī)器學(xué)習(xí)迎來爆發(fā)期是神經(jīng)網(wǎng)絡(luò)研究領(lǐng)域領(lǐng)軍者Hinton在2006年提出了神經(jīng)網(wǎng)絡(luò)Deep Learning算法，使神經(jīng)網(wǎng)絡(luò)的能力大大提高。Hinton和他的學(xué)生 Salakhutdinov在《科學(xué)》上發(fā)表了一篇文章，開啟了深度學(xué)習(xí)在學(xué)術(shù)界和工業(yè)界的浪潮。

2015年，為紀(jì)念人工智能概念提出60周年，LeCun、Bengio和Hinton推出了深度學(xué)習(xí)的聯(lián)合綜述。深度學(xué)習(xí)可以讓那些擁有多個處理層的計算模型來學(xué)習(xí)具有多層次抽象的數(shù)據(jù)的表示，這些方法在許多方面都帶來了顯著的改善。深度學(xué)習(xí)的出現(xiàn)，讓圖像、語音等感知類問題取得了真正意義上的突破，離實際應(yīng)用已如此之近，將人工智能推進(jìn)到一個新時代。

計算機(jī)視覺催生出人臉識別、智能視頻監(jiān)控等應(yīng)用

計算機(jī)視覺，顧名思義，是分析、研究讓計算機(jī)智能化地達(dá)到類似人類的雙眼“看”的一門研究科學(xué)，即對于客觀存在的三維立體化的世界的理解以及識別依靠智能化的計算機(jī)去實現(xiàn)。

計算機(jī)視覺技術(shù)就是利用了攝像機(jī)以及電腦替代人眼使得計算機(jī)擁有人類的雙眼所具有的分割、分類、識別、跟蹤、判別、決策等功能。

馬爾（David Marr）《視覺》一書的問世，標(biāo)志著計算機(jī)視覺成為了一門獨立學(xué)科。計算機(jī)視覺40多年的發(fā)展中，盡管人們提出了大量的理論和方法，但總體上說，計算機(jī)視覺經(jīng)歷了三個主要歷程：馬爾計算視覺、多視幾何與分層三維重建和基于學(xué)習(xí)的視覺。

目前，在計算機(jī)上調(diào)“深度網(wǎng)絡(luò)”來提高物體識別的精度似乎就等于從事“視覺研究”。馬爾的計算視覺分為三個層次：計算理論、表達(dá)和算法以及算法實現(xiàn)。由于馬爾認(rèn)為算法實現(xiàn)并不影響算法的功能和效果，所以馬爾計算視覺理論主要討論“計算理論”和“表達(dá)與算法”二部分內(nèi)容。

馬爾認(rèn)為，大腦的神經(jīng)計算和計算機(jī)的數(shù)值計算沒有本質(zhì)區(qū)別，所以馬爾沒有對“算法實現(xiàn)”進(jìn)行任何探討。從現(xiàn)在神經(jīng)科學(xué)的進(jìn)展看，“神經(jīng)計算”與數(shù)值計算在有些情況下會產(chǎn)生本質(zhì)區(qū)別，如目前興起的神經(jīng)形態(tài)計算，但總體上說，“數(shù)值計算”可以“模擬神經(jīng)計算”。至少從現(xiàn)在看，“算法的不同實現(xiàn)途徑”，并不影響馬爾計算視覺理論的本質(zhì)屬性。

20世紀(jì)90年代初，計算機(jī)視覺從“蕭條”走向“繁榮”，主要得益于以下二方面的因素：一方面，瞄準(zhǔn)的應(yīng)用領(lǐng)域從精度和魯棒性要求太高的“工業(yè)應(yīng)用”轉(zhuǎn)到要求不太高，特別是僅僅需要“視覺效果”的應(yīng)用領(lǐng)域，如遠(yuǎn)程視頻會議、考古、虛擬現(xiàn)實、視頻監(jiān)控等;另一方面，人們發(fā)現(xiàn)，多視幾何理論下的分層三維重建能有效提高三維重建的魯棒性和精度。

多視幾何的代表性人物首數(shù)法國INRIA的O.Faugeras，美國 GE研究院的R.Hartely和英國牛津大學(xué)的A.Zisserman。2000年Hartely和Zisserman合著的書對這方面的內(nèi)容給出了比較系統(tǒng)的總結(jié)。大數(shù)據(jù)需要全自動重建，而全自動重建需要反復(fù)優(yōu)化，而反復(fù)優(yōu)化需要花費大量計算資源。舉一個簡單例子，假如要三維重建北京中關(guān)村地區(qū)，為了保證重建的完整性，需要獲取大量的地面和無人機(jī)圖像。假如獲取了1萬幅地面高分辨率圖像（4000×3000）、5千幅高分辨率無人機(jī)圖像（8000×7000），三維重建要匹配這些圖像，從中選取合適的圖像集，然后對相機(jī)位置信息進(jìn)行標(biāo)定并重建出場景的三維結(jié)構(gòu)，如此大的數(shù)據(jù)量，人工干預(yù)是不可能的，所以整個三維重建流程必須全自動進(jìn)行。

基于學(xué)習(xí)的視覺，則是指以機(jī)器學(xué)習(xí)為主要技術(shù)手段的計算機(jī)視覺研究?；趯W(xué)習(xí)的視覺研究，文獻(xiàn)中大體上分為二個階段：21世紀(jì)初的以流形學(xué)習(xí)為代表的子空間法和目前以深度學(xué)習(xí)為代表的視覺方法。

近年來，巨量數(shù)據(jù)的不斷涌現(xiàn)與計算能力的快速提升，給以非結(jié)構(gòu)化視覺數(shù)據(jù)為研究對象的計算機(jī)視覺帶來了巨大的發(fā)展機(jī)遇與挑戰(zhàn)性難題，計算機(jī)視覺也因此成為學(xué)術(shù)界和工業(yè)界公認(rèn)的前瞻性研究領(lǐng)域，部分研究成果已實際應(yīng)用，催生出人臉識別、智能視頻監(jiān)控等多個極具顯示度的商業(yè)化應(yīng)用。

語音識別被應(yīng)用于工業(yè)、通信、醫(yī)療等行業(yè)

語音識別是讓機(jī)器識別和理解說話人語音信號內(nèi)容的新興學(xué)科，目的是將語音信號轉(zhuǎn)變?yōu)槲谋?u>字符或者命令的智能技術(shù)，利用計算機(jī)理解講話人的語義內(nèi)容，使其聽懂人類的語音，從而判斷說話人的意圖，是一種非常自然和有效的人機(jī)交流方式。

語音識別的研究工作可以追溯到20世紀(jì)50年代。在1952年，AT&T貝爾研究所研究成功了世界上第一個語音識別系統(tǒng)Audry 系統(tǒng)，可以識別10個英文數(shù)字發(fā)音。這個系統(tǒng)識別的是一個人說出的孤立數(shù)字，并且很大程度上依賴于每個數(shù)字中的元音的共振峰的測量。

計算機(jī)的應(yīng)用推動了語音識別技術(shù)的發(fā)展，使用了電子計算機(jī)進(jìn)行語音識別，提出了一系列語音識別技術(shù)的新理論——動態(tài)規(guī)劃線性預(yù)測分析技術(shù)，較好地解決了語音信號產(chǎn)生的模型問題。在20世紀(jì)70年代，語音識別研究取得了重大的具有里程碑意義的成果，伴隨著自然語言理解的研究以及微電子技術(shù)的發(fā)展，語音識別領(lǐng)域取得了突破性進(jìn)展。這一時期的語音識別方法基本上是采用傳統(tǒng)的模式識別策略。

后來，語音識別研究進(jìn)一步走向深入。這一時期所取得的重大進(jìn)展有：隱馬爾科夫模型（HMM）技術(shù)的成熟和不斷完善，并最終成為語音識別的主流方法；以知識為基礎(chǔ)的語音識別的研究日益受到重視。在進(jìn)行連續(xù)語音識別的時候，除了識別聲學(xué)信息外，更多地利用各種語言知識，諸如構(gòu)詞、句法、語義、對話背景等方面的知識來幫助進(jìn)一步對語音識別和理解。同時在語音識別研究領(lǐng)域，還產(chǎn)生了基于統(tǒng)計概率的語言模型；人工神經(jīng)網(wǎng)絡(luò)在語音識別中的應(yīng)用研究興起。ANN具有較好的區(qū)分復(fù)雜分類邊界的能力，顯然它十分有助于模式識別。在這些研究中，大部分采用基于反向傳播算法（BP算法）的多層感知網(wǎng)絡(luò)。

語音識別技術(shù)逐漸走向?qū)嵱没?，在建立模型、提取和?yōu)化特征參數(shù)方面取得了突破性的進(jìn)展，使系統(tǒng)具有更好的自適應(yīng)性。許多發(fā)達(dá)國家和著名公司都投入大量資金用以開發(fā)和研究實用化的語音識別產(chǎn)品，從而許多具有代表性的產(chǎn)品問世。比如IBM公司研發(fā)的漢語ViaVoice系統(tǒng)，以及Dragon公司研發(fā)的DragonDictate系統(tǒng)，都具有說話人自適應(yīng)能力，能在用戶使用過程中不斷提高識別率。

21世紀(jì)之后，深度學(xué)習(xí)技術(shù)極大地促進(jìn)了語音識別技術(shù)的進(jìn)步，使其識別精度大大提高，應(yīng)用得到廣泛發(fā)展。2009年，Hinton將深度神經(jīng)網(wǎng)絡(luò)（DNN）應(yīng)用于語音的聲學(xué)建模，在TIMIT上獲得了當(dāng)時最好的結(jié)果。2011年底，微軟研究院的俞棟、鄧力又把DNN技術(shù)應(yīng)用在了大詞匯量連續(xù)語音識別任務(wù)上，大大降低了語音識別錯誤率。從此語音識別進(jìn)入DNN-HMM時代。DNN帶來的好處是不再需要對語音數(shù)據(jù)分布進(jìn)行假設(shè)，將相鄰的語音幀拼接又包含了語音的時序結(jié)構(gòu)信息，使得對于狀態(tài)的分類概率有了明顯提升。同時DNN還具有強(qiáng)大環(huán)境學(xué)習(xí)能力，可以提升對噪聲和口音的魯棒性。

目前，語音識別技術(shù)已逐漸被應(yīng)用于工業(yè)、通信、商務(wù)、家電、醫(yī)療、汽車電子以及家庭服務(wù)等各個領(lǐng)域。例如，現(xiàn)今流行的手機(jī)語音助手，就是將語音識別技術(shù)應(yīng)用到智能手機(jī)中，能夠?qū)崿F(xiàn)人與手機(jī)的智能對話，其中包括美國蘋果公司的Siri語音助手、智能360語音助手、百度語音助手等。

機(jī)器人與有機(jī)生命越來越接近

機(jī)器人廣義上包括一切模擬人類行為或思想以及模擬其他生物的機(jī)械（如機(jī)器狗、機(jī)器貓等）。目前，智能機(jī)器人已成為世界各國的研究熱點之一，成為衡量一國工業(yè)化水平的重要標(biāo)志。

機(jī)器人技術(shù)最早應(yīng)用于工業(yè)領(lǐng)域，但隨著機(jī)器人技術(shù)的發(fā)展和各行業(yè)需求的提升，在計算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)、MEMS技術(shù)等新技術(shù)發(fā)展的推動下，近年來，機(jī)器人技術(shù)正從傳統(tǒng)的工業(yè)制造領(lǐng)域向醫(yī)療服務(wù)、教育娛樂、勘探勘測、生物工程、救災(zāi)救援等領(lǐng)域迅速擴(kuò)展，適應(yīng)不同領(lǐng)域需求的機(jī)器人系統(tǒng)被深入研究和開發(fā)。過去幾十年，機(jī)器人技術(shù)的研究與應(yīng)用，大大推動了人類的工業(yè)化和現(xiàn)代化進(jìn)程，并逐步形成了機(jī)器人的產(chǎn)業(yè)鏈，使機(jī)器人的應(yīng)用范圍也日趨廣泛。

在機(jī)器人嶄露頭角于工業(yè)生產(chǎn)的同時，機(jī)器人技術(shù)研究不斷深入。1961年，美國麻省理工學(xué)院Lincoln實驗室把一個配有接觸傳感器的遙控操縱器的從動部分與一臺計算機(jī)聯(lián)結(jié)在一起，這樣形成的機(jī)器人可以憑觸覺決定物體的狀態(tài)。隨后，用電視攝像頭作為輸入的計算機(jī)圖像處理、物體辨識的研究工作也陸續(xù)取得成果。1968年，美國斯坦福人工智能實驗室的J.McCarthy等人研究了新穎的課題——研制帶有手、眼、耳的計算機(jī)系統(tǒng)。于是，智能機(jī)器人的研究形象逐漸豐滿起來。

20世紀(jì)70年代以來，機(jī)器人產(chǎn)業(yè)蓬勃興起，機(jī)器人技術(shù)發(fā)展為專門的學(xué)科。工業(yè)機(jī)器人首先在汽車制造業(yè)的流水線生產(chǎn)中開始大規(guī)模應(yīng)用，隨后，諸如日本、德國、美國這樣的制造業(yè)發(fā)達(dá)國家開始在其他工業(yè)生產(chǎn)中也大量采用機(jī)器人作業(yè)。

后來，機(jī)器人朝著越來越智能化的方向發(fā)展，這種機(jī)器人帶有多種傳感器，能夠?qū)⒍喾N傳感器得到的信息進(jìn)行融合，能夠有效地適應(yīng)變化的環(huán)境，具有很強(qiáng)的自適應(yīng)能力、學(xué)習(xí)能力和自治功能。

智能機(jī)器人的發(fā)展主要經(jīng)歷了三個階段，分別是可編程試教、再現(xiàn)型機(jī)器人，有感知能力和自適應(yīng)能力的機(jī)器人，智能機(jī)器人。其中所涉及到的關(guān)鍵技術(shù)有多傳感器信息融合、導(dǎo)航與定位、路徑規(guī)劃、機(jī)器人視覺智能控制和人機(jī)接口技術(shù)等。

進(jìn)入21世紀(jì)，隨著勞動力成本的不斷提高、技術(shù)的不斷進(jìn)步，各國陸續(xù)進(jìn)行制造業(yè)的轉(zhuǎn)型與升級，出現(xiàn)了機(jī)器人替代人的熱潮。同時，人工智能發(fā)展日新月異，服務(wù)機(jī)器人也開始走進(jìn)普通家庭的生活。

世界上許多機(jī)器人科技公司都在大力發(fā)展機(jī)器人技術(shù)，機(jī)器人的特質(zhì)與有機(jī)生命越來越接近。最近，波士頓動力公司在機(jī)器人領(lǐng)域的成就已經(jīng)成為人們的焦點，其產(chǎn)品機(jī)器狗Spot和雙足人形機(jī)器人Atlas都讓人大為驚嘆。Spot的功能十分先進(jìn)，可以前往你告訴它要去的目的地，避開障礙，并在極端情況下保持平衡。Spot還可以背負(fù)多達(dá)四個硬件模塊，為公司提供其他多款機(jī)器人完成特定工作所需的任何技能；Atlas已經(jīng)掌握了倒立、360度翻轉(zhuǎn)、旋轉(zhuǎn)等多項技能，繼表演跑酷、后空翻等絕技之后，Atlas又掌握了一項新技能——體操，再次讓人們大開眼界。