打破智能語(yǔ)音技術(shù)瓶頸,炬芯用芯發(fā)展交互新體驗(yàn)
掃描二維碼
隨時(shí)隨地手機(jī)看文章
(文章來(lái)源:IT168)
談到智能語(yǔ)音,早已不是什么新鮮的事情,國(guó)外有蘋(píng)果Siri,微軟小娜,Google Assistant,亞馬遜的Alexa這樣的智能語(yǔ)音大咖。國(guó)內(nèi)有靈犀助手(科大訊飛),小度(百度),小愛(ài)同學(xué)(小米)這樣的后來(lái)跟進(jìn)者。
首次接觸智能語(yǔ)音的用戶(hù),會(huì)覺(jué)得很神奇,覺(jué)得這東西怎么可以如此智能。而對(duì)于經(jīng)常使用的老用戶(hù)來(lái)說(shuō),智能語(yǔ)音助手的雞肋日益顯現(xiàn),因?yàn)楝F(xiàn)階段的智能語(yǔ)音基本都是采用數(shù)據(jù)庫(kù)匹配的原則,對(duì)于云端數(shù)據(jù)庫(kù)中沒(méi)有的知識(shí),智能語(yǔ)音也只能“呵呵”了。想必大家都還記得,雷軍同志在2019年的發(fā)布會(huì)上,演示小愛(ài)智能音箱時(shí)出現(xiàn)的多次“車(chē)禍”現(xiàn)場(chǎng)。不難看出的是,智能語(yǔ)音設(shè)備的拾音技術(shù)依然收外界許多因素干擾,進(jìn)步和優(yōu)化空間巨大。但,對(duì)于技術(shù)來(lái)說(shuō),我們應(yīng)該永遠(yuǎn)懷著寬容和理解的態(tài)度去對(duì)待,因?yàn)槿魏我婚T(mén)技術(shù)都是一個(gè)不斷積累和迭代的過(guò)程。
對(duì)于大部分人來(lái)說(shuō),目前接觸體驗(yàn)最多的智能語(yǔ)音硬件應(yīng)該只有智能音箱和智能機(jī)器人。只有通過(guò)智能硬件與云端數(shù)據(jù)中心的默契配合,才有可能讓智能語(yǔ)音交互形成完整通路。語(yǔ)音交互的大致流程可分為:聲音采集—》降噪—》語(yǔ)音喚醒—》語(yǔ)音轉(zhuǎn)文字—》語(yǔ)義理解—》回復(fù)文字和指令—》文字轉(zhuǎn)聲音—》播放聲音。以下天貓精靈智能音箱為例,將語(yǔ)音交互完整步驟做逐步分解。
1.用戶(hù)說(shuō)“天貓精靈,今天天氣怎么樣?”;2、“天貓精靈”被語(yǔ)音喚醒模塊接收到,并判斷為喚醒詞,然后通過(guò)AI芯片和硬件拾取和記錄“今天天氣怎么樣”這段語(yǔ)音,并發(fā)送給云端服務(wù)器;3、服務(wù)器把收集到的電腦信號(hào),再次轉(zhuǎn)化成文字“今天天氣怎么樣”,交給語(yǔ)義理解服務(wù)器;語(yǔ)義理解服務(wù)器把“今天天氣怎么樣”這段文字,拆解成“事件=查詢(xún)天氣,時(shí)間=今天”這段控制指令回傳給設(shè)備。4、設(shè)備根據(jù)時(shí)間和本機(jī)地理位置,找天氣服務(wù)器查詢(xún)天氣,并獲得天氣的的文本數(shù)據(jù)“今天要下雨”;5、設(shè)備把“今天要下雨”這幾個(gè)字發(fā)給文字轉(zhuǎn)聲音的服務(wù)器,服務(wù)器返回“今天要下雨”這段聲音,由設(shè)備喇叭播放出來(lái)。
毋庸置疑的是,以上五個(gè)步驟都是由智能音箱的硬件和云端的數(shù)據(jù)中心配合完成的,硬件只要負(fù)責(zé)聲音的拾取和傳達(dá),云端則用豐富的數(shù)據(jù)資源去匹配用戶(hù)的需求,二者缺一不可。相對(duì)來(lái)說(shuō),聲音前處理技術(shù)則是智能硬件最最重要的部分,主要體現(xiàn)降噪和拾音效果兩方面,喚醒以及與機(jī)器對(duì)話(huà)的時(shí)候都需要拾音,而且拾音還有近距離和遠(yuǎn)距離之說(shuō),如果連最基本的聲音都沒(méi)有聽(tīng)清和聽(tīng)懂,談何后面的數(shù)據(jù)傳達(dá)和解析呢。
聲音的前處理技術(shù),是聲音沒(méi)有進(jìn)入傳輸、沒(méi)有存儲(chǔ)之前的處理。聲音前處理目的,就是讓聲音的存儲(chǔ)、傳輸效率更高,識(shí)別率更好。聲音的后處理技術(shù),是聲音經(jīng)過(guò)存儲(chǔ)之后進(jìn)行播放的同時(shí)處理。是對(duì)音源例如 MP3 等媒體解碼播放的聲音進(jìn)音效增強(qiáng)處理。如何將人的聲音有效傳達(dá)至機(jī)器,讓機(jī)器“聽(tīng)到”、“聽(tīng)清”且“聽(tīng)懂”? “聽(tīng)懂”之后又改如何與云端的數(shù)據(jù)進(jìn)行精準(zhǔn)匹配,最終反饋給用戶(hù)真正想要的需求動(dòng)作?
這將是智能語(yǔ)音聲音前處理技術(shù)和聲音后處理技術(shù)應(yīng)該思考和努力解決的問(wèn)題。國(guó)內(nèi)耕耘聲音20余年,在聲音前處理技術(shù)方面已經(jīng)處于領(lǐng)先地位的國(guó)產(chǎn)芯片原廠炬芯科技從2018年開(kāi)始就在核心主推的雙麥克風(fēng)陣列智能語(yǔ)音芯片,已經(jīng)在各大品牌智能音箱、早教機(jī)器人、繪本機(jī)器人、物聯(lián)網(wǎng)中控等產(chǎn)品上完美落地,強(qiáng)大的聲音前處理技術(shù)為完美智能語(yǔ)音體驗(yàn)保駕護(hù)航。
目前,國(guó)家正在加快人工智能的產(chǎn)業(yè)布局,發(fā)布多項(xiàng)利好政策促進(jìn)人工智能產(chǎn)業(yè)發(fā)展;5G時(shí)代的來(lái)臨更是為人工智能的發(fā)展培育了一片物聯(lián)網(wǎng)沃土。我們可以預(yù)見(jiàn),智能語(yǔ)音作為下一代人機(jī)交互的新入口,將率先在這片人工智能的沃土上生根發(fā)力,推動(dòng)整個(gè)產(chǎn)業(yè)的茁壯成長(zhǎng)。如想讓讓智能語(yǔ)音產(chǎn)品做到真正的聰明,智能硬件(包括主控芯片和各種IC)和語(yǔ)音助手(云端數(shù)據(jù)中心)都需要再升級(jí),不斷打通人和機(jī)器之間對(duì)話(huà)的技術(shù)壁壘,讓人與機(jī)器中間的溝通變成真正的“面對(duì)面”溝通。
? ? ?





