當(dāng)前位置：首頁 > 消費(fèi)電子 > 消費(fèi)電子

原創(chuàng)

語音識(shí)別技術(shù)的發(fā)展歷程

時(shí)間：2024-03-29 14:40:01

關(guān)鍵字：語音識(shí)別語音 AI

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]語音識(shí)別相信大家并不陌生，近些年來語音識(shí)別技術(shù)的應(yīng)用層出不窮，同時(shí)也更加智能。

語音識(shí)別相信大家并不陌生，近些年來語音識(shí)別技術(shù)的應(yīng)用層出不窮，同時(shí)也更加智能。從開始我們簡(jiǎn)單的詢問“你是誰”，到現(xiàn)在可以與我們進(jìn)行多輪對(duì)話，理解我們的意思甚至是心情，語音識(shí)別已經(jīng)實(shí)現(xiàn)了長(zhǎng)足的發(fā)展?？赡艽蠖鄶?shù)人覺得語音識(shí)別是近些年才出現(xiàn)的技術(shù)，其實(shí)不然，下面讓我們一起從語音技術(shù)的歷史展開來看。

Part 01 語音識(shí)別近70年發(fā)展史

1952年，貝爾實(shí)驗(yàn)室發(fā)明了自動(dòng)數(shù)字識(shí)別機(jī)，科學(xué)家對(duì)智能語音有了模糊的概念，可能這時(shí)科學(xué)家們就已經(jīng)在暢想我們?nèi)缃駥?shí)現(xiàn)的這一切。

1964年，IBM在世界博覽會(huì)上推出了數(shù)字語音識(shí)別系統(tǒng)，語音技術(shù)也自此走出了實(shí)驗(yàn)室，為更多人知曉，貝爾實(shí)驗(yàn)室的夢(mèng)想也變成了更多人的夢(mèng)想。

1980年，聲龍推出了第一款語音識(shí)別產(chǎn)品Dragon Dictate，這是第一款面向消費(fèi)者的語音識(shí)別產(chǎn)品。雖然夢(mèng)想第一次照進(jìn)了現(xiàn)實(shí)，但其高達(dá)9000美元的售價(jià)，很大程度增加了智能語音技術(shù)的普及難度。

1997年，IBM推出它的第一個(gè)語音識(shí)別產(chǎn)品Via Voice。在中國(guó)市場(chǎng)，IBM適配了四川、上海、廣東等地方方言，Via Voice也真正的為更多消費(fèi)者接觸、使用到。

2011年，蘋果首次在iphone4s上加入智能語音助手Siri。至此，智能語音與手機(jī)深度綁定，進(jìn)入廣大消費(fèi)者的日常生活。隨后國(guó)內(nèi)各大手機(jī)廠商也先后跟進(jìn)，為手機(jī)消費(fèi)者提供了五彩繽紛的語音識(shí)別功能。

此后，語音識(shí)別技術(shù)的應(yīng)用，并沒有局限于手機(jī)，而是擴(kuò)展到了各種場(chǎng)景。從各種智能家居，如智能機(jī)器人、智能電視、智能加濕器等，到現(xiàn)在智能汽車，各大傳統(tǒng)廠商以及造車新勢(shì)力紛紛積極布局智能座艙?？梢娭悄苷Z音技術(shù)已經(jīng)在我們的衣食住行各個(gè)方面得到了廣泛應(yīng)用。

Part 02 語音識(shí)別技術(shù)簡(jiǎn)介

語音識(shí)別技術(shù)，也被稱為自動(dòng)語音識(shí)別(Automatic Speech Recognition，ASR)，其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入。語音識(shí)別技術(shù)屬于人工智能方向的一個(gè)重要分支，涉及許多學(xué)科，如信號(hào)處理、計(jì)算機(jī)科學(xué)、語言學(xué)、聲學(xué)、生理學(xué)、心理學(xué)等，是人機(jī)自然交互技術(shù)中的關(guān)鍵環(huán)節(jié)。

Part 03 語音識(shí)別基本流程

ASR：指自動(dòng)語音識(shí)別技術(shù)(Automatic Speech Recognition)，是一種將人的語音轉(zhuǎn)換為文本的技術(shù)。

NLU：自然語言理解(Natural Language Understanding, NLU)是所有支持機(jī)器理解文本內(nèi)容的方法模型或任務(wù)的總稱。

NLG：自然語言生成(Natural Language Generation，NLG)是一種通過計(jì)算機(jī)在特定交互目標(biāo)下生成語言文本的自動(dòng)化過程，其主要目的是能夠自動(dòng)化構(gòu)建高質(zhì)量的生成人類能夠理解的語言文本。

上圖展示了一個(gè)語音識(shí)別的基本流程，用戶發(fā)出指令后，mic收集音頻，完成聲音到波形圖的轉(zhuǎn)換，通過波形圖與人類發(fā)音的波形圖做對(duì)比，可以識(shí)別出說的具體音節(jié)，通過音節(jié)，組合成詞、句子，再結(jié)合大數(shù)據(jù)分析出說的最匹配的話，然后NLU模塊開始工作，分析出這句話的意圖(intent)、域(Domain)等各種信息。分析出意圖后開始對(duì)話管理DM(Dialog Manager)，通過后臺(tái)數(shù)據(jù)查詢應(yīng)該給用戶什么反饋。然后交給NLG模塊，通過查出來的信息，生成自然語言，最后通過TTS模塊，將文字轉(zhuǎn)回成波形圖并播放聲音。

上面的流程涉及到的學(xué)科、知識(shí)都比較多，由于篇幅原因，不一一展開描述，在這里我節(jié)選出ASR來進(jìn)行相對(duì)詳細(xì)些的學(xué)習(xí)。

Part 04 ASR實(shí)現(xiàn)原理簡(jiǎn)單剖析

我們首先從ASR聲音源來看，當(dāng)一位用戶發(fā)出指令，比如說：我愛你。這時(shí)麥克風(fēng)會(huì)收集音頻到存儲(chǔ)設(shè)備。我們通過音頻處理軟件(如Audacity)打開后可以發(fā)現(xiàn)音頻是一段波形圖。

但是這段波形圖并沒有什么直觀的有意義的信息，它的高低只代表了聲音的大小，橫軸也僅僅是時(shí)間。語音識(shí)別本身是基于大數(shù)據(jù)的分析技術(shù)，分析的基礎(chǔ)是數(shù)據(jù)的準(zhǔn)確，聲音大小和發(fā)音的時(shí)間長(zhǎng)短很難有什么統(tǒng)計(jì)學(xué)的意義，所以此時(shí)我們需要對(duì)音頻進(jìn)行處理。(這段波形圖是四句我愛你的波形圖)。

處理的一種常用方法是傅里葉變換，通過傅里葉變換，我們可以將時(shí)間維度的波形圖，轉(zhuǎn)換成頻率維度的波形圖。

語音識(shí)別技術(shù)的發(fā)展歷史可以追溯到20世紀(jì)50年代初期。在那個(gè)時(shí)候，人們開始嘗試將語音轉(zhuǎn)化為文本，以便于計(jì)算機(jī)的處理。隨著計(jì)算機(jī)技術(shù)的發(fā)展，語音識(shí)別技術(shù)也逐漸得到了改進(jìn)和完善。本文將詳細(xì)介紹語音識(shí)別技術(shù)的發(fā)展歷史。

20世紀(jì)50年代初期，貝爾實(shí)驗(yàn)室的研究人員開始嘗試將語音轉(zhuǎn)化為文本。他們使用了一種叫做“Audrey”的設(shè)備，通過對(duì)話框架來實(shí)現(xiàn)語音識(shí)別。這種設(shè)備仍然十分原始，只能夠識(shí)別一些簡(jiǎn)單的單詞和數(shù)字。

20世紀(jì)60年代，語音識(shí)別技術(shù)得到了進(jìn)一步的發(fā)展。美國(guó)國(guó)防部資助了一項(xiàng)名為“Harpy”的研究計(jì)劃，旨在開發(fā)一種可以識(shí)別語音的系統(tǒng)。Harpy系統(tǒng)可以識(shí)別1,011個(gè)單詞，但是其準(zhǔn)確率仍然較低。

20世紀(jì)70年代，語音識(shí)別技術(shù)得到了一些重大的進(jìn)展。IBM公司開發(fā)了一種名為“Shoebox”的語音識(shí)別系統(tǒng)，可以識(shí)別1,000個(gè)單詞。這種系統(tǒng)使用了一些新的技術(shù)，如動(dòng)態(tài)時(shí)間規(guī)整(DTW)等。

美國(guó)知名投資機(jī)構(gòu)Mangrove Capital Partners在《2019年語音技術(shù)報(bào)告》中，給語音下了一個(gè)宏大的定義——?dú)g迎下一代的顛覆者。

可如果把時(shí)間倒退10年，大部分人還是會(huì)把“語音交互”定義為一場(chǎng)豪賭，都知道贏面比較大，卻遲遲不敢下注，因?yàn)楦拍畹穆涞剡€沒有一個(gè)明確的期限，當(dāng)正確的路徑被走通之前，永遠(yuǎn)都存在不確定性。

不過在此前的80年里，人類對(duì)語音技術(shù)的希望從未破滅，就像是在迷宮中找尋出口一般，一遍又一遍的試錯(cuò)，最終找到了正確的路徑。

01 漫長(zhǎng)的孩提時(shí)代“小度小度，明天天氣怎么樣?”“小度小度，我想聽周杰倫的歌” “小度小度，我想給爸爸打電話”，諸如這樣的指令每天有幾億次發(fā)生，哪怕是牙牙學(xué)語的孩子也可以和智能音箱進(jìn)行流暢的對(duì)話。

但在50年前，就職于貝爾實(shí)驗(yàn)室的約翰·皮爾斯卻在一封公開信中為語音識(shí)別下了“死亡診斷書”：就像是把水轉(zhuǎn)化為汽油、從海里提取金子、徹底治療癌癥，讓機(jī)器識(shí)別語音幾乎是不可能實(shí)現(xiàn)的事情。

彼時(shí)距離首個(gè)能夠處理合成語音的機(jī)器出現(xiàn)已經(jīng)過去30年的時(shí)間，距離發(fā)明出能夠聽懂從0到9語音數(shù)字的機(jī)器也過去了17個(gè)年頭。這兩項(xiàng)創(chuàng)造性的發(fā)明均出自貝爾實(shí)驗(yàn)室，但語音識(shí)別技術(shù)的緩慢進(jìn)展，幾乎消磨掉了所有人的耐心。

在20世紀(jì)的大部分時(shí)間里，語音識(shí)別技術(shù)就像是一場(chǎng)不知方向的長(zhǎng)征，時(shí)間刻度被拉長(zhǎng)到了10年之久：

上世紀(jì)60年代，時(shí)間規(guī)整機(jī)制、動(dòng)態(tài)時(shí)間規(guī)整和音素動(dòng)態(tài)跟蹤三個(gè)關(guān)鍵技術(shù)奠定了語音識(shí)別發(fā)展的基礎(chǔ);

上世紀(jì)70年代，語音識(shí)別進(jìn)入了快速發(fā)展的階段，模式識(shí)別思想、動(dòng)態(tài)規(guī)劃算法、線性預(yù)測(cè)編碼等開始應(yīng)用;

上世紀(jì)80年代，語音識(shí)別開始從孤立詞識(shí)別系統(tǒng)向大詞匯量連續(xù)語音識(shí)別系統(tǒng)發(fā)展，基于GMM-HMM的框架成為語音識(shí)別系統(tǒng)的主導(dǎo)框架;

上世紀(jì)90年代，出現(xiàn)了很多產(chǎn)品化的語音識(shí)別系統(tǒng)，比如IBM的Via-vioce系統(tǒng)、微軟的Whisper系統(tǒng)、英國(guó)劍橋大學(xué)的HTK系統(tǒng);

但在進(jìn)入21世紀(jì)后，語音識(shí)別系統(tǒng)的錯(cuò)誤率依然很高，再次陷到漫長(zhǎng)的瓶頸期。直到2006年Hiton提出用深度置信網(wǎng)絡(luò)初始化神經(jīng)網(wǎng)絡(luò)，使得訓(xùn)練深層的神經(jīng)網(wǎng)絡(luò)變得容易，從而掀起了深度學(xué)習(xí)的浪潮。

只是在2009年之前70年左右的漫長(zhǎng)歲月里，中國(guó)在語音識(shí)別技術(shù)上大多處于邊緣角色，1958年中國(guó)科學(xué)院聲學(xué)所利用電子管電路識(shí)別10個(gè)元音，1973年中國(guó)科學(xué)院聲學(xué)所開始了計(jì)算機(jī)語音識(shí)別，然后是863計(jì)劃開始開始組織語音識(shí)別技術(shù)的研究，直到百度、科大訊飛等中國(guó)企業(yè)的崛起。

02 躍進(jìn)的少年時(shí)代2010年注定是語音識(shí)別的轉(zhuǎn)折點(diǎn)。

前一年Hinton和D.Mohamed將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語音的聲學(xué)建模，在小詞匯量連續(xù)語音識(shí)別數(shù)據(jù)庫TIMIT上獲得成功。

從2010年開始，微軟的俞棟、鄧力等學(xué)者首先嘗試將深度學(xué)習(xí)技術(shù)引入到語音識(shí)別領(lǐng)域，并確立了三個(gè)維度的標(biāo)準(zhǔn)：

數(shù)據(jù)量的多少，取決于搜索量、使用量的規(guī)模;

算法的優(yōu)劣，頂級(jí)人才扮演者至關(guān)重要的角色;

計(jì)算力的水平，關(guān)鍵在于FPGA等硬件的發(fā)展。

在這三個(gè)維度的比拼中，誰擁有數(shù)據(jù)上的優(yōu)勢(shì)，誰聚集了頂級(jí)的人才，誰掌握著強(qiáng)大的計(jì)算能力，多半會(huì)成為這場(chǎng)較量中的優(yōu)勝方。于是在語音識(shí)別的“少年時(shí)代”，終于開始了躍進(jìn)式的發(fā)展，刷新紀(jì)錄的時(shí)間間隔被壓縮到幾年到幾個(gè)月。

2016年語音識(shí)別的準(zhǔn)確率達(dá)到90%，但在這年晚些時(shí)候，微軟公開表示語音識(shí)別系統(tǒng)的詞錯(cuò)率達(dá)到了5.9%，等同于人類速記同樣一段對(duì)話的水平，時(shí)任百度首席科學(xué)家吳恩達(dá)發(fā)聲稱百度在2015年末即達(dá)到了同等水平;2017年6月，Google表示語音識(shí)別的準(zhǔn)確率達(dá)到95%，而早在10個(gè)月前的時(shí)候，李彥宏就在百度世界大會(huì)上宣布了百度語音識(shí)別準(zhǔn)確率達(dá)到97%的消息。

一個(gè)有些“奇怪”的現(xiàn)象，為何在語音識(shí)別領(lǐng)域缺少前期積累的中國(guó)，可以在極短的時(shí)間內(nèi)實(shí)現(xiàn)從無到有，甚至有后發(fā)先至的趨勢(shì)?可以找到的原因有二：

首先，傳統(tǒng)專利池被挑戰(zhàn)，競(jìng)爭(zhēng)回歸技術(shù)。

語音識(shí)別進(jìn)入深度學(xué)習(xí)時(shí)代，并沒有背負(fù)太多的專利包袱，中美玩家們有機(jī)會(huì)站在了同一起跑線上。

比如2013年百度的語音識(shí)別技術(shù)還主要基于mel-bank的子帶CNN模型;2014年就獨(dú)立發(fā)展出了Sequence Discriminative Training(區(qū)分度模型);2015年初推出基于LSTM –HMM的語音識(shí)別，年底發(fā)展出基于LSTM-CTC的端對(duì)端語音識(shí)別系統(tǒng);2016年和2017年將Deep CNN模型和 LSTM、CTC結(jié)合起來，2018年推出Deep Peak 2模型，2019年又發(fā)布了流式多級(jí)的截?cái)嘧⒁饬δＰ汀?

而在不久前結(jié)束的百度AI開發(fā)者大會(huì)上，百度還推出了針對(duì)遠(yuǎn)場(chǎng)語音交互的鴻鵠芯片，可以實(shí)現(xiàn)遠(yuǎn)場(chǎng)陣列信號(hào)實(shí)時(shí)處理，高精度超低誤報(bào)語音喚醒以及離線語音識(shí)別。

其次，語音識(shí)別進(jìn)入到生態(tài)化、產(chǎn)業(yè)化的時(shí)代。

在Google發(fā)布了語音開放API后，對(duì)Nuance產(chǎn)生了致命的打擊，不僅僅是Google在產(chǎn)品和技術(shù)上的優(yōu)勢(shì)，也來自于Google強(qiáng)大的人工智能技術(shù)生態(tài)，例如以TensorFlow為代表的深度學(xué)習(xí)引擎。

聲明：該篇文章為本站原創(chuàng)，未經(jīng)授權(quán)不予轉(zhuǎn)載，侵權(quán)必究。

換一批

與傳統(tǒng)的驅(qū)動(dòng)方式相比，共陰恒流驅(qū)動(dòng)在能效有哪些優(yōu)勢(shì)

LED驅(qū)動(dòng)電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字：驅(qū)動(dòng)電源

[電源]

工業(yè)電機(jī)驅(qū)動(dòng)電源設(shè)計(jì)：反電動(dòng)勢(shì)抑制與過流保護(hù)的集成方案

在工業(yè)自動(dòng)化蓬勃發(fā)展的當(dāng)下，工業(yè)電機(jī)作為核心動(dòng)力設(shè)備，其驅(qū)動(dòng)電源的性能直接關(guān)系到整個(gè)系統(tǒng)的穩(wěn)定性和可靠性。其中，反電動(dòng)勢(shì)抑制與過流保護(hù)是驅(qū)動(dòng)電源設(shè)計(jì)中至關(guān)重要的兩個(gè)環(huán)節(jié)，集成化方案的設(shè)計(jì)成為提升電機(jī)驅(qū)動(dòng)性能的關(guān)鍵。

關(guān)鍵字：工業(yè)電機(jī) 驅(qū)動(dòng)電源

[電源]

如何解決 LED 驅(qū)動(dòng)電源的易損壞問題

LED 驅(qū)動(dòng)電源作為 LED 照明系統(tǒng)的 “心臟”，其穩(wěn)定性直接決定了整個(gè)照明設(shè)備的使用壽命。然而，在實(shí)際應(yīng)用中，LED 驅(qū)動(dòng)電源易損壞的問題卻十分常見，不僅增加了維護(hù)成本，還影響了用戶體驗(yàn)。要解決這一問題，需從設(shè)計(jì)、生...

關(guān)鍵字：驅(qū)動(dòng)電源照明系統(tǒng) 散熱

[電力電工電路]

LED設(shè)計(jì)中LED驅(qū)動(dòng)電源的公式

根據(jù)LED驅(qū)動(dòng)電源的公式，電感內(nèi)電流波動(dòng)大小和電感值成反比，輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字： LED 設(shè)計(jì) 驅(qū)動(dòng)電源

[汽車電子]

EV主驅(qū)IGBT隔離驅(qū)動(dòng)電源方案選擇問題探討

電動(dòng)汽車(EV)作為新能源汽車的重要代表，正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動(dòng)汽車的核心技術(shù)之一是電機(jī)驅(qū)動(dòng)控制系統(tǒng)，而絕緣柵雙極型晶體管(IGBT)作為電機(jī)驅(qū)動(dòng)系統(tǒng)中的關(guān)鍵元件，其性能直接影響到電動(dòng)汽車的動(dòng)力性能和...

關(guān)鍵字：電動(dòng)汽車新能源驅(qū)動(dòng)電源

[電源]

合理的驅(qū)動(dòng)電源方案成為大功率區(qū)域照明的主流選擇

在現(xiàn)代城市建設(shè)中，街道及停車場(chǎng)照明作為基礎(chǔ)設(shè)施的重要組成部分，其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進(jìn)步，高亮度白光發(fā)光二極管(LED)因其獨(dú)特的優(yōu)勢(shì)逐漸取代傳統(tǒng)光源，成為大功率區(qū)域...

關(guān)鍵字：發(fā)光二極管驅(qū)動(dòng)電源 LED

[消費(fèi)電子]

AC-DC電源轉(zhuǎn)換拓?fù)浣Y(jié)構(gòu)設(shè)計(jì)

LED通用照明設(shè)計(jì)工程師會(huì)遇到許多挑戰(zhàn)，如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關(guān)鍵字： LED 驅(qū)動(dòng)電源功率因數(shù)校正

[電源]

針對(duì)于LED照明驅(qū)動(dòng)電源技術(shù)中的電磁干擾其中的三大硬件問題措施

在LED照明技術(shù)日益普及的今天，LED驅(qū)動(dòng)電源的電磁干擾(EMI)問題成為了一個(gè)不可忽視的挑戰(zhàn)。電磁干擾不僅會(huì)影響LED燈具的正常工作，還可能對(duì)周圍電子設(shè)備造成不利影響，甚至引發(fā)系統(tǒng)故障。因此，采取有效的硬件措施來解決L...

關(guān)鍵字： LED照明技術(shù) 電磁干擾驅(qū)動(dòng)電源

[電源]

LED驅(qū)動(dòng)電源的核心部分“開關(guān)管”和“變換器”設(shè)計(jì)技巧

開關(guān)電源具有效率高的特性,而且開關(guān)電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機(jī)重量也有所下降,所以,現(xiàn)在的LED驅(qū)動(dòng)電源

關(guān)鍵字： LED 驅(qū)動(dòng)電源開關(guān)電源

[電源]

最全LED驅(qū)動(dòng)電源及散熱設(shè)計(jì)方案介紹

LED驅(qū)動(dòng)電源是把電源供應(yīng)轉(zhuǎn)換為特定的電壓電流以驅(qū)動(dòng)LED發(fā)光的電壓轉(zhuǎn)換器，通常情況下：LED驅(qū)動(dòng)電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字： LED 隧道燈驅(qū)動(dòng)電源