智能語(yǔ)音技術(shù)將引領(lǐng)人機(jī)交互的新模式
掃描二維碼
隨時(shí)隨地手機(jī)看文章
邊錄音邊自動(dòng)轉(zhuǎn)寫(xiě)成文字的智能錄音筆,支持中文與58種外語(yǔ)互譯的新一代翻譯機(jī)、模仿不同人說(shuō)話的虛擬主播、供開(kāi)發(fā)者使用的語(yǔ)音開(kāi)放平臺(tái)。在科大訊飛股份有限公司北京總部的人工智能體驗(yàn)中心,眾多人工智能與語(yǔ)音融合的前沿技術(shù)項(xiàng)目令記者大開(kāi)眼界。
在即將到來(lái)的萬(wàn)物互聯(lián)時(shí)代,語(yǔ)音作為人類(lèi)最自然、最便捷的溝通方式,將會(huì)成為所有設(shè)備和產(chǎn)品至關(guān)重要的入口。業(yè)界普遍認(rèn)為,未來(lái)的人機(jī)交互將以語(yǔ)音為主、鍵盤(pán)和觸摸為輔。
近年來(lái),隨著智能語(yǔ)音應(yīng)用場(chǎng)景和手段不斷豐富,國(guó)內(nèi)眾多技術(shù)廠商在語(yǔ)音合成、語(yǔ)音識(shí)別、自然語(yǔ)言理解等人工智能核心技術(shù)領(lǐng)域持續(xù)發(fā)力。有理由相信,智能語(yǔ)音技術(shù)將給人們生活帶來(lái)更為深刻的改變。
提起科大訊飛,很多人會(huì)想到其主打語(yǔ)音輸入特色的“訊飛輸入法”。這款早在2010年就推出的軟件,版本號(hào)已經(jīng)到了第9代。語(yǔ)音輸入速度達(dá)到1分鐘400字,并支持多種方言,準(zhǔn)確率超過(guò)98%。在科大訊飛人工智能體驗(yàn)中心,工作人員安琪向記者演示了包括訊飛輸入法、訊飛聽(tīng)見(jiàn)、訊飛有聲等在內(nèi)的多個(gè)軟硬件產(chǎn)品。
“現(xiàn)在我們看到的就是一個(gè)離線轉(zhuǎn)寫(xiě)設(shè)備,叫訊飛聽(tīng)見(jiàn)智能會(huì)議系統(tǒng),是全球第一款中文語(yǔ)音實(shí)時(shí)轉(zhuǎn)寫(xiě)和多語(yǔ)種實(shí)時(shí)翻譯的系統(tǒng)……”安琪說(shuō)了一段話,系統(tǒng)立即在屏幕上輸出準(zhǔn)確的中文和翻譯后的英文。工作人員在演示可用于大型會(huì)議翻譯的訊飛聽(tīng)見(jiàn)智能會(huì)議系統(tǒng),說(shuō)一段話,屏幕上同時(shí)顯示出中文和英語(yǔ)譯文。
據(jù)介紹,今年全國(guó)兩會(huì)期間,代表委員們?cè)谛〗M討論中的發(fā)言被這套系統(tǒng)“滴水不漏”地記錄下來(lái)。以前的小組討論,需配兩三名工作人員,會(huì)后重聽(tīng)錄音是常態(tài)。有了“訊飛聽(tīng)見(jiàn)”,只需配一名工作人員,會(huì)后半個(gè)小時(shí)就能得到準(zhǔn)確的會(huì)議記錄。
語(yǔ)音識(shí)別就好比“機(jī)器的聽(tīng)覺(jué)系統(tǒng)”,能夠把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令。安琪介紹,隨著深度學(xué)習(xí)技術(shù)快速發(fā)展,科大訊飛在語(yǔ)音識(shí)別任務(wù)中率先實(shí)現(xiàn)規(guī)模應(yīng)用。2015年,在公證人員的見(jiàn)證下,科大訊飛機(jī)器語(yǔ)音轉(zhuǎn)寫(xiě)準(zhǔn)確率首次超過(guò)速記員。針對(duì)于噪聲環(huán)境下語(yǔ)音識(shí)別的挑戰(zhàn),科大訊飛在國(guó)際最權(quán)威的多通道語(yǔ)音分離和英文識(shí)別大賽(2016年CHiME-4和2018年CHiME-5)中,連續(xù)兩屆所有場(chǎng)景下均取得了世界第一。
另一款能快速轉(zhuǎn)寫(xiě)錄音的小型設(shè)備吸引了記者的注意,這是今年5月新推出的訊飛智能錄音筆。
“在研發(fā)之初,我們經(jīng)過(guò)調(diào)研發(fā)現(xiàn),81%的傳統(tǒng)錄音筆用戶真正需要的不是錄音,而是錄音整理出的文字。像記者采訪、會(huì)議記錄這些場(chǎng)景,錄完音后都需要及時(shí)將文字內(nèi)容快速整理出?!卑茬髡f(shuō),訊飛智能錄音筆在聯(lián)網(wǎng)狀態(tài)下,1小時(shí)的錄音出稿只需5分鐘,中文普通話識(shí)別準(zhǔn)確率高達(dá)98%,真正打通了從錄音到轉(zhuǎn)寫(xiě)再到分享以及后端查找編輯的全鏈條服務(wù)。
智能音箱是如今語(yǔ)音識(shí)別技術(shù)的熱門(mén)應(yīng)用。市場(chǎng)研究機(jī)構(gòu)最新數(shù)據(jù)顯示,中國(guó)已成為全球最大的智能音箱市場(chǎng),僅今年第一季度銷(xiāo)量就達(dá)到1060萬(wàn)臺(tái)??拼笥嶏wMORFEI麥克風(fēng)產(chǎn)品原型,搭載4+4雙環(huán)結(jié)構(gòu)麥克風(fēng),可實(shí)現(xiàn)遠(yuǎn)場(chǎng)空間全方位拾音。
通常情況下,每次對(duì)智能音箱下指令前,都需要提關(guān)鍵詞來(lái)喚醒,顯得“不夠智能”。而科大訊飛推出的MORFEI麥克風(fēng),內(nèi)置了AIUI全雙工語(yǔ)音交互解決方案,可以實(shí)現(xiàn)一次喚醒、連續(xù)問(wèn)答。其遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別技術(shù),更是能在5米距離下達(dá)到95%以上的喚醒率、93%的識(shí)別率。
同樣受益的還有汽車(chē)領(lǐng)域。通過(guò)融合語(yǔ)音、視覺(jué)等感知技術(shù),分析駕駛行為數(shù)據(jù),整合優(yōu)質(zhì)內(nèi)容資源,科大訊飛推出的飛魚(yú)智行智能車(chē)載交互系統(tǒng),將語(yǔ)音增強(qiáng)、自然語(yǔ)言理解等技術(shù)應(yīng)用于汽車(chē),并與各場(chǎng)景服務(wù)深度結(jié)合。





