打破智能語(yǔ)音技術(shù)瓶頸，炬芯用芯發(fā)展交互新體驗(yàn)

時(shí)間：2020-05-15 13:39:02

關(guān)鍵字：智能語(yǔ)音語(yǔ)音技術(shù) 智能音箱人工智能

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] （文章來(lái)源：IT168）談到智能語(yǔ)音，早已不是什么新鮮的事情，國(guó)外有蘋(píng)果Siri，微軟小娜，Google Assistant，亞馬遜的Alexa這樣的智能語(yǔ)音大咖。國(guó)內(nèi)有靈犀助手（科大

（文章來(lái)源：IT168）

談到智能語(yǔ)音，早已不是什么新鮮的事情，國(guó)外有蘋(píng)果Siri，微軟小娜，Google Assistant，亞馬遜的Alexa這樣的智能語(yǔ)音大咖。國(guó)內(nèi)有靈犀助手（科大訊飛），小度（百度），小愛(ài)同學(xué)（小米）這樣的后來(lái)跟進(jìn)者。

首次接觸智能語(yǔ)音的用戶(hù)，會(huì)覺(jué)得很神奇，覺(jué)得這東西怎么可以如此智能。而對(duì)于經(jīng)常使用的老用戶(hù)來(lái)說(shuō)，智能語(yǔ)音助手的雞肋日益顯現(xiàn)，因?yàn)楝F(xiàn)階段的智能語(yǔ)音基本都是采用數(shù)據(jù)庫(kù)匹配的原則，對(duì)于云端數(shù)據(jù)庫(kù)中沒(méi)有的知識(shí)，智能語(yǔ)音也只能“呵呵”了。想必大家都還記得，雷軍同志在2019年的發(fā)布會(huì)上，演示小愛(ài)智能音箱時(shí)出現(xiàn)的多次“車(chē)禍”現(xiàn)場(chǎng)。不難看出的是，智能語(yǔ)音設(shè)備的拾音技術(shù)依然收外界許多因素干擾，進(jìn)步和優(yōu)化空間巨大。但，對(duì)于技術(shù)來(lái)說(shuō)，我們應(yīng)該永遠(yuǎn)懷著寬容和理解的態(tài)度去對(duì)待，因?yàn)槿魏我婚T(mén)技術(shù)都是一個(gè)不斷積累和迭代的過(guò)程。

對(duì)于大部分人來(lái)說(shuō)，目前接觸體驗(yàn)最多的智能語(yǔ)音硬件應(yīng)該只有智能音箱和智能機(jī)器人。只有通過(guò)智能硬件與云端數(shù)據(jù)中心的默契配合，才有可能讓智能語(yǔ)音交互形成完整通路。語(yǔ)音交互的大致流程可分為：聲音采集—》降噪—》語(yǔ)音喚醒—》語(yǔ)音轉(zhuǎn)文字—》語(yǔ)義理解—》回復(fù)文字和指令—》文字轉(zhuǎn)聲音—》播放聲音。以下天貓精靈智能音箱為例，將語(yǔ)音交互完整步驟做逐步分解。

1.用戶(hù)說(shuō)“天貓精靈，今天天氣怎么樣？”;2、“天貓精靈”被語(yǔ)音喚醒模塊接收到，并判斷為喚醒詞，然后通過(guò)AI芯片和硬件拾取和記錄“今天天氣怎么樣”這段語(yǔ)音，并發(fā)送給云端服務(wù)器;3、服務(wù)器把收集到的電腦信號(hào)，再次轉(zhuǎn)化成文字“今天天氣怎么樣”，交給語(yǔ)義理解服務(wù)器;語(yǔ)義理解服務(wù)器把“今天天氣怎么樣”這段文字，拆解成“事件=查詢(xún)天氣，時(shí)間=今天”這段控制指令回傳給設(shè)備。4、設(shè)備根據(jù)時(shí)間和本機(jī)地理位置，找天氣服務(wù)器查詢(xún)天氣，并獲得天氣的的文本數(shù)據(jù)“今天要下雨”;5、設(shè)備把“今天要下雨”這幾個(gè)字發(fā)給文字轉(zhuǎn)聲音的服務(wù)器，服務(wù)器返回“今天要下雨”這段聲音，由設(shè)備喇叭播放出來(lái)。

毋庸置疑的是，以上五個(gè)步驟都是由智能音箱的硬件和云端的數(shù)據(jù)中心配合完成的，硬件只要負(fù)責(zé)聲音的拾取和傳達(dá)，云端則用豐富的數(shù)據(jù)資源去匹配用戶(hù)的需求，二者缺一不可。相對(duì)來(lái)說(shuō)，聲音前處理技術(shù)則是智能硬件最最重要的部分，主要體現(xiàn)降噪和拾音效果兩方面，喚醒以及與機(jī)器對(duì)話(huà)的時(shí)候都需要拾音，而且拾音還有近距離和遠(yuǎn)距離之說(shuō)，如果連最基本的聲音都沒(méi)有聽(tīng)清和聽(tīng)懂，談何后面的數(shù)據(jù)傳達(dá)和解析呢。

聲音的前處理技術(shù)，是聲音沒(méi)有進(jìn)入傳輸、沒(méi)有存儲(chǔ)之前的處理。聲音前處理目的，就是讓聲音的存儲(chǔ)、傳輸效率更高，識(shí)別率更好。聲音的后處理技術(shù)，是聲音經(jīng)過(guò)存儲(chǔ)之后進(jìn)行播放的同時(shí)處理。是對(duì)音源例如 MP3 等媒體解碼播放的聲音進(jìn)音效增強(qiáng)處理。如何將人的聲音有效傳達(dá)至機(jī)器，讓機(jī)器“聽(tīng)到”、“聽(tīng)清”且“聽(tīng)懂”？ “聽(tīng)懂”之后又改如何與云端的數(shù)據(jù)進(jìn)行精準(zhǔn)匹配，最終反饋給用戶(hù)真正想要的需求動(dòng)作？

這將是智能語(yǔ)音聲音前處理技術(shù)和聲音后處理技術(shù)應(yīng)該思考和努力解決的問(wèn)題。國(guó)內(nèi)耕耘聲音20余年，在聲音前處理技術(shù)方面已經(jīng)處于領(lǐng)先地位的國(guó)產(chǎn)芯片原廠(chǎng)炬芯科技從2018年開(kāi)始就在核心主推的雙麥克風(fēng)陣列智能語(yǔ)音芯片，已經(jīng)在各大品牌智能音箱、早教機(jī)器人、繪本機(jī)器人、物聯(lián)網(wǎng)中控等產(chǎn)品上完美落地，強(qiáng)大的聲音前處理技術(shù)為完美智能語(yǔ)音體驗(yàn)保駕護(hù)航。

目前，國(guó)家正在加快人工智能的產(chǎn)業(yè)布局，發(fā)布多項(xiàng)利好政策促進(jìn)人工智能產(chǎn)業(yè)發(fā)展;5G時(shí)代的來(lái)臨更是為人工智能的發(fā)展培育了一片物聯(lián)網(wǎng)沃土。我們可以預(yù)見(jiàn)，智能語(yǔ)音作為下一代人機(jī)交互的新入口，將率先在這片人工智能的沃土上生根發(fā)力，推動(dòng)整個(gè)產(chǎn)業(yè)的茁壯成長(zhǎng)。如想讓讓智能語(yǔ)音產(chǎn)品做到真正的聰明，智能硬件（包括主控芯片和各種IC）和語(yǔ)音助手（云端數(shù)據(jù)中心）都需要再升級(jí)，不斷打通人和機(jī)器之間對(duì)話(huà)的技術(shù)壁壘，讓人與機(jī)器中間的溝通變成真正的“面對(duì)面”溝通。
? ? ?

打破智能語(yǔ)音技術(shù)瓶頸，炬芯用芯發(fā)展交互新體驗(yàn)

打破智能語(yǔ)音技術(shù)瓶頸，炬芯用芯發(fā)展交互新體驗(yàn)