語音識別系統(tǒng)中增加圖像識別技術(shù)的設(shè)計(jì)應(yīng)用

時(shí)間：2020-08-05 08:39:02

關(guān)鍵字：圖像識別語音識別

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 　　語音識別是機(jī)器自動(dòng)語音識別（automaTIc speech recogniTIon by machine）的簡稱。　　語音識別技術(shù)關(guān)系到多學(xué)科的研究領(lǐng)域，不同領(lǐng)域中的研究成果都對

　　語音識別是機(jī)器自動(dòng)語音識別（automaTIc speech recogniTIon by machine）的簡稱。

　　語音識別技術(shù)關(guān)系到多學(xué)科的研究領(lǐng)域，不同領(lǐng)域中的研究成果都對語音識別的發(fā)展作出了貢獻(xiàn)。讓機(jī)器識別語音的困難在某種程度上就像一個(gè)外語不好的人聽外圍人講話一樣，它與說話人、說話速度、說話內(nèi)容、環(huán)境條件有關(guān)。語音信號本身的特點(diǎn)造成了語音識別的困難。這些特點(diǎn)包括多變性、動(dòng)態(tài)性、瞬時(shí)性和連續(xù)性等。

　　計(jì)算機(jī)語音識別的過程與人對語音識別處理過程基本上是一致的。目前主流的語音識別技術(shù)是基于統(tǒng)計(jì)模式識別的基本理論。一個(gè)完整的語音識別系統(tǒng)可大致分為三部分：

　?。?）語音特征提取：其目的是從語音波形中提取出隨時(shí)間變化的語音特征序列。

　?。?）聲學(xué)模型與模式匹配（識別算法）：聲學(xué)模型通常將獲取的語音特征通過學(xué)習(xí)算法產(chǎn)生。在識別時(shí)將輸入的語音特征與聲學(xué)模型（模式）進(jìn)行匹配、比較，得到最佳的識別結(jié)果。

　　（3）語言模型與語言處理：語言模型包括由識別語音命令構(gòu)成的語法網(wǎng)絡(luò)或由統(tǒng)計(jì)方法構(gòu)成的語言模型，語言處理可以進(jìn)行語法、語義分析。對小詞表語音識別系統(tǒng)，通常不需要語言處理部分。

　　聲學(xué)模型是識別系統(tǒng)的底層模型，并且是語音識別系統(tǒng)中最關(guān)系的一部分。聲學(xué)模型的目的是提供一種有效的方法，計(jì)算語音的特征矢量序列和每個(gè)發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計(jì)與語言發(fā)音特點(diǎn)密切相關(guān)。聲學(xué)模型單元大小（字發(fā)音模型、半音字模型或音素模型）對語音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識別率以及靈活性有較大的影響。必須根據(jù)不同的語言的特點(diǎn)、識別系統(tǒng)詞匯量的大小決定識別單元的大小。由于有了種種困難，語音識別技術(shù)通常根據(jù)使用中的限制性要求，構(gòu)建成不同類型的系統(tǒng)，通常包括三類。其一為限制用戶的說話方式，這又可以分為孤立詞語音識別系統(tǒng)（isolate-word speech recogniTIon system）、連接詞語音識別系統(tǒng)（connected-words speech recogniTIon system）、連續(xù)語音識別系統(tǒng)（continue speech recopnition system）和即興口語語音識別系統(tǒng)（spontaneous speech recognition system）。其二為限制用戶的用詞范圍。第三種為限制系統(tǒng)的用戶對象。采用語速作為系統(tǒng)的第二信息渠道，一旦系統(tǒng)跟蹤到了目標(biāo)的語還，在協(xié)助語音識別的同時(shí)還能夠有效地排除與語音信息不同步的外界噪聲，因此系統(tǒng)能夠獲得更好的識別性能。

圖像處理算法設(shè)計(jì)

　　語言模型對中、大詞匯量的語音識別系統(tǒng)特別重要。當(dāng)分類發(fā)生錯(cuò)誤時(shí)可以根據(jù)語言學(xué)模型、語法結(jié)構(gòu)、語義學(xué)進(jìn)行判斷糾正，特別是一些同音字則必須通過上下文結(jié)構(gòu)才能確定詞義。語言學(xué)理論包括語義結(jié)構(gòu)、語法規(guī)則、語言的數(shù)學(xué)描述模型等有關(guān)方面。目前比較成功的語言模型通常是采用統(tǒng)計(jì)語法的語言模型與基于規(guī)則語法結(jié)構(gòu)命令的語言模型。語法結(jié)構(gòu)可以限定不同詞之間的相互連接關(guān)系，減少了識別系統(tǒng)的搜索空間，這有利于提高系統(tǒng)的識別。

　　語音識別過程實(shí)際上是一種認(rèn)識過程。就像人們聽語音時(shí)，并不把語音和語言的語法結(jié)構(gòu)、語義結(jié)構(gòu)分開。因?yàn)楫?dāng)語音發(fā)音模糊時(shí)人們可以用這些和知識來指導(dǎo)對語言的理解過程，但是對機(jī)器來說，識別系統(tǒng)也要利用這些知識，只是如何有效地描述這些語法和語義還有困難：

　?。?）小詞匯量語音識別系統(tǒng)：包括幾十個(gè)詞的語音識別系統(tǒng)。

　?。?）中等詞匯量的語音識別系統(tǒng)：通常包括幾百個(gè)詞至上千個(gè)詞的識別系統(tǒng)。

　　（3）大詞匯量語音識別系統(tǒng)：通常包括幾千至幾萬個(gè)詞的語音識別系統(tǒng)。

　　這些不同的限制也確定了語音識別系統(tǒng)的困難度。