未來語音識別技術(shù)的發(fā)展趨勢會如何

時間：2020-05-22 17:27:01

關(guān)鍵字：語音識別技術(shù) 線性相位信號處理

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀] （文章來源：AI科技大本營）語音識別主要趨于遠(yuǎn)場化和融合化的方向發(fā)展，但在遠(yuǎn)場可靠性還有很多難點(diǎn)沒有突破，比如多輪交互、多人噪雜等場景還有待突破，還有需求較為迫切的人聲分離等技術(shù)。新的

（文章來源：AI科技大本營）

語音識別主要趨于遠(yuǎn)場化和融合化的方向發(fā)展，但在遠(yuǎn)場可靠性還有很多難點(diǎn)沒有突破，比如多輪交互、多人噪雜等場景還有待突破，還有需求較為迫切的人聲分離等技術(shù)。新的技術(shù)應(yīng)該徹底解決這些問題，讓機(jī)器聽覺遠(yuǎn)超人類的感知能力。這不能僅僅只是算法的進(jìn)步，需要整個產(chǎn)業(yè)鏈的共同技術(shù)升級，包括更為先進(jìn)的傳感器和算力更強(qiáng)的芯片。

單從遠(yuǎn)場語音識別技術(shù)來看，仍然存在很多挑戰(zhàn)，包括：

（1）回聲消除技術(shù)。由于喇叭非線性失真的存在，單純依靠信號處理手段很難將回聲消除干凈，這也阻礙了語音交互系統(tǒng)的推廣，現(xiàn)有的基于深度學(xué)習(xí)的回聲消除技術(shù)都沒有考慮相位信息，直接求取的是各個頻帶上的增益，能否利用深度學(xué)習(xí)將非線性失真進(jìn)行擬合，同時結(jié)合信號處理手段可能是一個好的方向。

（2）噪聲下的語音識別仍有待突破。信號處理擅長處理線性問題，深度學(xué)習(xí)擅長處理非線性問題，而實(shí)際問題一定是線性和非線性的疊加，因此一定是兩者融合才有可能更好地解決噪聲下的語音識別問題。

（3）上述兩個問題的共性是目前的深度學(xué)習(xí)僅用到了語音信號各個頻帶的能量信息，而忽略了語音信號的相位信息，尤其是對于多通道而言，如何讓深度學(xué)習(xí)更好的利用相位信息可能是未來的一個方向。

（4）另外，在較少數(shù)據(jù)量的情況下，如何通過遷移學(xué)習(xí)得到一個好的聲學(xué)模型也是研究的熱點(diǎn)方向。例如方言識別，若有一個比較好的普通話聲學(xué)模型，如何利用少量的方言數(shù)據(jù)得到一個好的方言聲學(xué)模型，如果做到這點(diǎn)將極大擴(kuò)展語音識別的應(yīng)用范疇。這方面已經(jīng)取得了一些進(jìn)展，但更多的是一些訓(xùn)練技巧，距離終極目標(biāo)還有一定差距。

（5）語音識別的目的是讓機(jī)器可以理解人類，因此轉(zhuǎn)換成文字并不是最終的目的。如何將語音識別和語義理解結(jié)合起來可能是未來更為重要的一個方向。語音識別里的 LSTM 已經(jīng)考慮了語音的歷史時刻信息，但語義理解需要更多的歷史信息才能有幫助，因此如何將更多上下文會話信息傳遞給語音識別引擎是一個難題。

（6）讓機(jī)器聽懂人類語言，僅靠聲音信息還不夠，“聲光電熱力磁”這些物理傳感手段，下一步必然都要融合在一起，只有這樣機(jī)器才能感知世界的真實(shí)信息，這是機(jī)器能夠?qū)W習(xí)人類知識的前提條件。而且，機(jī)器必然要超越人類的五官，能夠看到人類看不到的世界，聽到人類聽不到的世界。