日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當(dāng)前位置:首頁(yè) > 嵌入式 > 嵌入式動(dòng)態(tài)
[導(dǎo)讀] 扎克伯格日前公開了他自己打造的AI管家,從演示結(jié)果看,其語(yǔ)音識(shí)別功能差強(qiáng)人意,而語(yǔ)音識(shí)別技術(shù)卻在今年各大公司報(bào)道中屢次取得突破,是當(dāng)前AI發(fā)展代表領(lǐng)域之一。這就涉

 

 

扎克伯格日前公開了他自己打造的AI管家,從演示結(jié)果看,其語(yǔ)音識(shí)別功能差強(qiáng)人意,而語(yǔ)音識(shí)別技術(shù)卻在今年各大公司報(bào)道中屢次取得突破,是當(dāng)前AI發(fā)展代表領(lǐng)域之一。這就涉及到一個(gè)深層次的問(wèn)題:本次AI熱潮起于深度學(xué)習(xí)的突破,但真要想創(chuàng)造價(jià)值并不能停步在深度學(xué)習(xí)技術(shù)本身——AI創(chuàng)造價(jià)值的鏈條比較長(zhǎng),必須打破軟硬的邊界,補(bǔ)全整個(gè)鏈條,價(jià)值才會(huì)體現(xiàn)出來(lái)。

近來(lái)扎克伯格向記者公開演示了他2016年的作品,一個(gè)類似Jarvis的人工智能助手,從記者的描述來(lái)看,這人工智能助手大部分時(shí)候還比較不錯(cuò),但在語(yǔ)音交互環(huán)節(jié)則不太理想,對(duì)此騰訊科技做了如下報(bào)道:

扎克伯格還建立了響應(yīng)語(yǔ)音指令的系統(tǒng),并通過(guò)定制iOS應(yīng)用控制。但這部分展示不太理想,他重復(fù)了四次指令才讓系統(tǒng)弄明白:天黑前不要開燈。扎克伯格略顯尷尬地說(shuō):“喔,這應(yīng)該是它最失敗的表現(xiàn)了!”。不過(guò),Jarvis播放音樂(lè)的展示還算成功。扎克伯格下令:“給我們放段音樂(lè)吧!”幾秒鐘后,大衛(wèi)·庫(kù)塔(David Guetta)的《Would I Lie to You》 開始通過(guò)客廳揚(yáng)聲器響起來(lái)。他說(shuō)了兩次“把音量調(diào)高”后,系統(tǒng)照做無(wú)誤。最后,他同樣說(shuō)了兩次才讓系統(tǒng)停止播放。

這非常有意思,因?yàn)閺男侣剚?lái)看“天黑前不要開燈”和“把音量調(diào)高”的失誤顯然都不是命令理解(語(yǔ)義)上有問(wèn)題,否則你說(shuō)八百遍Jarvis該不好使還是不好使。如果不是語(yǔ)義的問(wèn)題,那顯然就會(huì)和各大公司所宣稱的已經(jīng)被解決的問(wèn)題——語(yǔ)音識(shí)別有關(guān)。

標(biāo)準(zhǔn)環(huán)境解決≠真實(shí)效果好

關(guān)于語(yǔ)音識(shí)別的精度今年官方的報(bào)道一般是這樣的:

11月21日到23日,搜狗、百度和科大訊飛三家公司接連召開了三場(chǎng)發(fā)布會(huì)向外界展示了自己在語(yǔ)音識(shí)別和機(jī)器翻譯等方面的最新進(jìn)展。值得注意的是,這三家公司幾乎在同一時(shí)段宣布了各自中文語(yǔ)音識(shí)別準(zhǔn)確率達(dá)到了97%。

類似的報(bào)道也會(huì)發(fā)生在微軟等的身上,我們假設(shè)Facebook做的不是太差,水平也與此類似達(dá)到97%的準(zhǔn)確率。97%的具體含義是100個(gè)單詞上只有3個(gè)錯(cuò)誤(刪除、被替換、被插入),那么問(wèn)題就來(lái)了,如果真實(shí)環(huán)境里真的達(dá)到了這個(gè)精度,那么小扎的演示絕對(duì)不應(yīng)該是上面這個(gè)樣子。

那問(wèn)題出在那里?

關(guān)鍵問(wèn)題并不復(fù)雜,扎克伯格用手機(jī)當(dāng)做家庭里的終端,這樣距離稍微一遠(yuǎn),環(huán)境稍微嘈雜一點(diǎn),那再好的手機(jī)也沒(méi)辦法幫Jarvis聽(tīng)清楚你在說(shuō)什么。手機(jī)本身是設(shè)計(jì)給近場(chǎng)用的,手機(jī)上的語(yǔ)音識(shí)別基本也是給近場(chǎng)優(yōu)化過(guò)的,怎么也不能彌補(bǔ)遠(yuǎn)場(chǎng)上帶來(lái)的不適應(yīng)。

扎克伯格對(duì)此非常坦誠(chéng),他在博客這么寫道:

In the case of Jarvis, training an AI that you‘ll talk to at close range is also different from training a system you‘ll talk to from all the way across the room, like Echo. These systems are more specialized than it appears, and that implies we are further off from having general systems than it might seem.(原文:

https://www.facebook.com/notes/mark-zuckerberg/building-jarvis/10154361492931634/)

上面這段英文簡(jiǎn)單來(lái)講就是,語(yǔ)音識(shí)別更多時(shí)候是專門場(chǎng)景下好用,想做一個(gè)萬(wàn)能的版本仍然還很遙遠(yuǎn)。語(yǔ)音識(shí)別只能做限定場(chǎng)景的最佳。

但事實(shí)上扎克伯格仍然只認(rèn)識(shí)到了部分問(wèn)題,因?yàn)閱渭兛扛纳普Z(yǔ)音識(shí)別比如做一個(gè)匹配遠(yuǎn)場(chǎng)的版本也還是解決不了他遇到的問(wèn)題(上面說(shuō)的重復(fù)指示幾次系統(tǒng)才起作用問(wèn)題)。我們可以注意到開始播放音樂(lè)之后,報(bào)道中提到的兩條命令都需要重復(fù)兩次,這很可能是音樂(lè)自身對(duì)語(yǔ)音識(shí)別形成了干擾,這種情形下單純的優(yōu)化語(yǔ)音識(shí)別(不管遠(yuǎn)場(chǎng)還是近場(chǎng))是解決不了問(wèn)題的。

扎克伯格接下來(lái)的路

如果扎克伯格不放棄這事,而是持續(xù)對(duì)此進(jìn)行改善,那下面會(huì)發(fā)生什么?他可能會(huì)掉到坑里面。他用了150小時(shí)做到上面那程度,但很可能再花1500小時(shí),效果并沒(méi)有實(shí)質(zhì)性改善。

整個(gè)語(yǔ)音交互事實(shí)上依賴于三層:聲學(xué)的信號(hào)處理(麥克風(fēng)陣列+聲學(xué)算法),語(yǔ)音識(shí)別(SR),自然語(yǔ)言理解(NLU)。扎克伯格演示時(shí)的問(wèn)題核心原因不在于自然語(yǔ)言理解(語(yǔ)義),而在于聲學(xué)與語(yǔ)音識(shí)別。聲學(xué)和語(yǔ)音識(shí)別的關(guān)系可以大致類比成耳朵和大腦,如果聲學(xué)部分的信號(hào)很差,那相當(dāng)于耳朵不好使,基本語(yǔ)音識(shí)別的算法再怎么好也不可能把命令是什么弄清楚。

扎克伯格如果要優(yōu)化效果,那么基本方法有下面幾類:

一種可能是扎克伯格覺(jué)得真實(shí)場(chǎng)景下的信號(hào)優(yōu)化(聲學(xué)、硬件等)也沒(méi)什么,找?guī)讉€(gè)人做做就完了,如果這么想Facebook可能會(huì)自己組建個(gè)硬件、聲學(xué)團(tuán)隊(duì)來(lái)做Echo Dot那樣的終端。但這么做很可能短期就不會(huì)有下次演示了。因?yàn)樽屨Z(yǔ)音識(shí)別匹配前端聲學(xué)信號(hào)是容易的,但反過(guò)來(lái)讓牽涉硬件和物理的聲學(xué)來(lái)適應(yīng)語(yǔ)音識(shí)別則基本會(huì)做掛。而在互聯(lián)網(wǎng)公司里通常后端偏算法的勢(shì)力會(huì)大,所以很容易走到前面那條路上去(這事情國(guó)內(nèi)至少做掛了兩撥人了)。國(guó)內(nèi)的大公司很容易走上這條路,但從分工習(xí)慣來(lái)看,國(guó)外公司更愿意在技術(shù)棧上卡住特定位置,非自己核心的部分會(huì)更愿意開放給其它人,所以扎克伯格這么干的可能性不高,除非他覺(jué)得自己也得搞Amazon Echo那種產(chǎn)品了。

一種可能是扎克伯格和深度學(xué)習(xí)科學(xué)家思路一致,認(rèn)為所有東西都可以通過(guò)深度學(xué)習(xí)在云端算法層面來(lái)解決。這種思路下,就會(huì)通過(guò)深度學(xué)習(xí)來(lái)做降噪等信號(hào)層面的工作,用算法挑戰(zhàn)各種物理層面的問(wèn)題。如果走上這條路,那估計(jì)短期也不會(huì)有下次演示了,因?yàn)樗龅降膯?wèn)題并非單純的降噪問(wèn)題,回聲抵消、Beamforming、降噪、聲源定向這些東西是關(guān)聯(lián)在一起的,指望深度學(xué)習(xí)短期突破這些問(wèn)題更像科研上的一種設(shè)想而非工程上的一種實(shí)踐。“設(shè)想”是說(shuō)可以成為一種探索的思路,但結(jié)果完全沒(méi)譜,高度不確定,相當(dāng)于把不確定性引入產(chǎn)品開發(fā)之中。

一種可能是扎克伯格走下一步的時(shí)候想的很清楚,知道自己這類公司的能力邊界,因此把這部分開放出去,讓專業(yè)的人做專業(yè)的事。物理的事情歸物理,算法的事情歸算法,這樣的話就會(huì)滿世界找聲學(xué)和遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別供貨商,但這反倒是最快的一種方式。

不知道扎克伯格具體會(huì)走那條路,如果是最后一種,我們聲智科技這樣的公司應(yīng)該會(huì)很快收到消息。

打破原子與比特的邊界

扎克伯格這件事情事實(shí)上也提供了一個(gè)跳出來(lái)看AI的機(jī)會(huì)。

下圖是Jarvis的系統(tǒng)架構(gòu)圖:

 

 

一般來(lái)講,從產(chǎn)品體驗(yàn)上可以看出技術(shù)水平,從架構(gòu)圖則可以看出來(lái)認(rèn)知上的差異。

根據(jù)上圖,顯然在扎克伯格這里Jarvis被理解成了一個(gè)命令控制型的系統(tǒng),但感知這環(huán)節(jié)被忽略了,盡管扎克伯格自己在文章里也提到感知上下文是非常關(guān)鍵的一個(gè)環(huán)節(jié)(Understanding context is important for any AI)。

這種理解在互聯(lián)網(wǎng)企業(yè)那里很可能非常有代表性,但問(wèn)題就在于感知恰恰是打造一個(gè)初級(jí)的Jarvis這樣的系統(tǒng)時(shí)最難的環(huán)節(jié)。因?yàn)楦兄偸且虼┰雍捅忍氐倪吔纭anguage Processing、Speech Recognition、Face Recognition總是立刻可用的,只受限于算法的發(fā)展程度和數(shù)據(jù),但感知部分不是這樣,不單要算法行,器件、生產(chǎn)都要行才能有好的結(jié)果。比如說(shuō)麥克風(fēng)陣列,你算法再好但MEMS麥克風(fēng)不給力,那你一樣抓瞎。如果要說(shuō)的短板的話,在深度學(xué)習(xí)突破后,感知這一環(huán)節(jié)才是真的短板。

這就涉及到這次AI突破的一個(gè)深層次問(wèn)題:這次的AI起于深度學(xué)習(xí)的突破,但真要想創(chuàng)造價(jià)值并不能停步在深度學(xué)習(xí)本身。關(guān)鍵原因就在于其AI創(chuàng)造價(jià)值的鏈條比較長(zhǎng),必須打破軟硬的邊界,補(bǔ)全整個(gè)鏈條,價(jià)值才會(huì)體現(xiàn)出來(lái)。幾乎我們所有能想到的大機(jī)會(huì)都是這樣,語(yǔ)音交互(需要打穿聲學(xué)和識(shí)別邊界),自動(dòng)駕駛(打穿計(jì)算機(jī)視覺(jué)、雷達(dá)、機(jī)械控制的邊界)等。這部分難度通常是被忽略了,似乎是有幾個(gè)深度學(xué)習(xí)專家問(wèn)題就可以搞定一切問(wèn)題。后者不是不行,但要限定在特定類別的事情上,比如圖普科技做的鑒黃等。正是同時(shí)做好軟硬這部分在拉長(zhǎng)投資-回報(bào)的周期。投資和創(chuàng)業(yè)如果對(duì)此沒(méi)有自己的判斷,那準(zhǔn)備的耐心可能就不夠。

小結(jié)

近來(lái)和AI各方面的人(創(chuàng)業(yè)者、投資人、科學(xué)家、媒體)接觸下來(lái),發(fā)現(xiàn)大家基本都在思考這樣兩個(gè)問(wèn)題:

第一,本次AI浪潮會(huì)不會(huì)和前兩次一樣很快冷下來(lái)?

第二,落地點(diǎn)到底在那里,究竟還要多久?

對(duì)于第一個(gè)問(wèn)題到現(xiàn)在為止還沒(méi)碰到任何一個(gè)人認(rèn)為這次AI浪潮會(huì)冷到前兩次那樣。對(duì)于第二個(gè)問(wèn)題,大的落地點(diǎn)上大家基本也已經(jīng)達(dá)成了共識(shí)(語(yǔ)音交互、AR、自動(dòng)駕駛等),爭(zhēng)議最大的就是啟動(dòng)期究竟還要持續(xù)多久這一點(diǎn)。從兩個(gè)維度來(lái)判斷,這個(gè)時(shí)間更可能是在3年左右,一是產(chǎn)品經(jīng)過(guò)兩個(gè)周期的優(yōu)化會(huì)更加成熟;一個(gè)是計(jì)算能力、基礎(chǔ)設(shè)施到那個(gè)時(shí)候也會(huì)變的足夠強(qiáng)大和便利(過(guò)去三年Training速度提高了60倍,比摩爾定律還快。Intel則正在推出集成度更高的服務(wù)器)。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅(qū)動(dòng)電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: 驅(qū)動(dòng)電源

在工業(yè)自動(dòng)化蓬勃發(fā)展的當(dāng)下,工業(yè)電機(jī)作為核心動(dòng)力設(shè)備,其驅(qū)動(dòng)電源的性能直接關(guān)系到整個(gè)系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動(dòng)勢(shì)抑制與過(guò)流保護(hù)是驅(qū)動(dòng)電源設(shè)計(jì)中至關(guān)重要的兩個(gè)環(huán)節(jié),集成化方案的設(shè)計(jì)成為提升電機(jī)驅(qū)動(dòng)性能的關(guān)鍵。

關(guān)鍵字: 工業(yè)電機(jī) 驅(qū)動(dòng)電源

LED 驅(qū)動(dòng)電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個(gè)照明設(shè)備的使用壽命。然而,在實(shí)際應(yīng)用中,LED 驅(qū)動(dòng)電源易損壞的問(wèn)題卻十分常見(jiàn),不僅增加了維護(hù)成本,還影響了用戶體驗(yàn)。要解決這一問(wèn)題,需從設(shè)計(jì)、生...

關(guān)鍵字: 驅(qū)動(dòng)電源 照明系統(tǒng) 散熱

根據(jù)LED驅(qū)動(dòng)電源的公式,電感內(nèi)電流波動(dòng)大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字: LED 設(shè)計(jì) 驅(qū)動(dòng)電源

電動(dòng)汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動(dòng)汽車的核心技術(shù)之一是電機(jī)驅(qū)動(dòng)控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機(jī)驅(qū)動(dòng)系統(tǒng)中的關(guān)鍵元件,其性能直接影響到電動(dòng)汽車的動(dòng)力性能和...

關(guān)鍵字: 電動(dòng)汽車 新能源 驅(qū)動(dòng)電源

在現(xiàn)代城市建設(shè)中,街道及停車場(chǎng)照明作為基礎(chǔ)設(shè)施的重要組成部分,其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進(jìn)步,高亮度白光發(fā)光二極管(LED)因其獨(dú)特的優(yōu)勢(shì)逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關(guān)鍵字: 發(fā)光二極管 驅(qū)動(dòng)電源 LED

LED通用照明設(shè)計(jì)工程師會(huì)遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關(guān)鍵字: LED 驅(qū)動(dòng)電源 功率因數(shù)校正

在LED照明技術(shù)日益普及的今天,LED驅(qū)動(dòng)電源的電磁干擾(EMI)問(wèn)題成為了一個(gè)不可忽視的挑戰(zhàn)。電磁干擾不僅會(huì)影響LED燈具的正常工作,還可能對(duì)周圍電子設(shè)備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來(lái)解決L...

關(guān)鍵字: LED照明技術(shù) 電磁干擾 驅(qū)動(dòng)電源

開關(guān)電源具有效率高的特性,而且開關(guān)電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機(jī)重量也有所下降,所以,現(xiàn)在的LED驅(qū)動(dòng)電源

關(guān)鍵字: LED 驅(qū)動(dòng)電源 開關(guān)電源

LED驅(qū)動(dòng)電源是把電源供應(yīng)轉(zhuǎn)換為特定的電壓電流以驅(qū)動(dòng)LED發(fā)光的電壓轉(zhuǎn)換器,通常情況下:LED驅(qū)動(dòng)電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: LED 隧道燈 驅(qū)動(dòng)電源
關(guān)閉