日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當(dāng)前位置:首頁 > 消費(fèi)電子 > 音視頻及家電
[導(dǎo)讀] (文章來源:AI科技大本營) 語音識別主要趨于遠(yuǎn)場化和融合化的方向發(fā)展,但在遠(yuǎn)場可靠性還有很多難點(diǎn)沒有突破,比如多輪交互、多人噪雜等場景還有待突破,還有需求較為迫切的人聲分離等技術(shù)。新的

(文章來源:AI科技大本營)

語音識別主要趨于遠(yuǎn)場化和融合化的方向發(fā)展,但在遠(yuǎn)場可靠性還有很多難點(diǎn)沒有突破,比如多輪交互、多人噪雜等場景還有待突破,還有需求較為迫切的人聲分離等技術(shù)。新的技術(shù)應(yīng)該徹底解決這些問題,讓機(jī)器聽覺遠(yuǎn)超人類的感知能力。這不能僅僅只是算法的進(jìn)步,需要整個產(chǎn)業(yè)鏈的共同技術(shù)升級,包括更為先進(jìn)的傳感器和算力更強(qiáng)的芯片。

單從遠(yuǎn)場語音識別技術(shù)來看,仍然存在很多挑戰(zhàn),包括:

(1)回聲消除技術(shù)。由于喇叭非線性失真的存在,單純依靠信號處理手段很難將回聲消除干凈,這也阻礙了語音交互系統(tǒng)的推廣,現(xiàn)有的基于深度學(xué)習(xí)的回聲消除技術(shù)都沒有考慮相位信息,直接求取的是各個頻帶上的增益,能否利用深度學(xué)習(xí)將非線性失真進(jìn)行擬合,同時結(jié)合信號處理手段可能是一個好的方向。

(2)噪聲下的語音識別仍有待突破。信號處理擅長處理線性問題,深度學(xué)習(xí)擅長處理非線性問題,而實(shí)際問題一定是線性和非線性的疊加,因此一定是兩者融合才有可能更好地解決噪聲下的語音識別問題。

(3)上述兩個問題的共性是目前的深度學(xué)習(xí)僅用到了語音信號各個頻帶的能量信息,而忽略了語音信號的相位信息,尤其是對于多通道而言,如何讓深度學(xué)習(xí)更好的利用相位信息可能是未來的一個方向。

(4)另外,在較少數(shù)據(jù)量的情況下,如何通過遷移學(xué)習(xí)得到一個好的聲學(xué)模型也是研究的熱點(diǎn)方向。例如方言識別,若有一個比較好的普通話聲學(xué)模型,如何利用少量的方言數(shù)據(jù)得到一個好的方言聲學(xué)模型,如果做到這點(diǎn)將極大擴(kuò)展語音識別的應(yīng)用范疇。這方面已經(jīng)取得了一些進(jìn)展,但更多的是一些訓(xùn)練技巧,距離終極目標(biāo)還有一定差距。

(5)語音識別的目的是讓機(jī)器可以理解人類,因此轉(zhuǎn)換成文字并不是最終的目的。如何將語音識別和語義理解結(jié)合起來可能是未來更為重要的一個方向。語音識別里的 LSTM 已經(jīng)考慮了語音的歷史時刻信息,但語義理解需要更多的歷史信息才能有幫助,因此如何將更多上下文會話信息傳遞給語音識別引擎是一個難題。

(6)讓機(jī)器聽懂人類語言,僅靠聲音信息還不夠,“聲光電熱力磁”這些物理傳感手段,下一步必然都要融合在一起,只有這樣機(jī)器才能感知世界的真實(shí)信息,這是機(jī)器能夠?qū)W習(xí)人類知識的前提條件。而且,機(jī)器必然要超越人類的五官,能夠看到人類看不到的世界,聽到人類聽不到的世界。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除( 郵箱:macysun@21ic.com )。
換一批
延伸閱讀
關(guān)閉