基于TMS320VC5507的語音識別系統(tǒng)實現(xiàn)

時間：2018-07-03 19:50:01

關(guān)鍵字： DSP 嵌入式開發(fā) 片上系統(tǒng) 特定人非特定人直接存儲訪問

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀]語音識別片上系統(tǒng)可以實現(xiàn)簡單的人機(jī)交互和語音控制，在家電、玩具及各種人機(jī)交互系統(tǒng)中有著廣泛的應(yīng)用前景。本文結(jié)合漢語語音特點，在TMS320VC5507芯片上實現(xiàn)了高性能特定人與非特定人中小詞匯量孤立詞識別系統(tǒng)。采用基于循環(huán)緩沖區(qū)的端點檢測算法，雙緩沖區(qū)的傳輸方式用于語音錄制和回放，分別采用降低特征維數(shù)的DTW算法和基于連續(xù)隱含馬爾可夫模型（CDHMM）的多級搜索算法作為核心識別算法，并給出實驗結(jié)果。

1 語音識別片上系統(tǒng)概述

隨著數(shù)字信號處理技術(shù)的發(fā)展，語音識別片上系統(tǒng)已成為人們研究的熱點。然而，復(fù)雜的系統(tǒng)與硬件需求的矛盾，一定程度上限制了它的應(yīng)用和推廣。本文針對上述問題，采用相應(yīng)的識別策略^[1]，合理安排算法流程，完成了高性能特定人與非特定人識別系統(tǒng)的片上實現(xiàn)。

2 硬件平臺

DSP選型時需綜合考慮運算速度、成本、功耗、硬件資源和程序可移植性等因素。本系統(tǒng)采用美國德州儀器（TI）生產(chǎn)的TMS320VC5507定點DSP作為核心處理器^[2]，并配合使用PLL時鐘發(fā)生器、JTEG標(biāo)準(zhǔn)測試接口、異步通信串口、DMA控制器、通用輸入輸出GPIO端口以及多通道緩沖串口（McBSPs）等主要片內(nèi)外設(shè)。系統(tǒng)硬件平臺如圖1所示。

VC5507 DSP芯片采用先進(jìn)的多總線結(jié)構(gòu)，內(nèi)含64 K×16 bit的片上RAM和64 KB的ROM；片內(nèi)可屏蔽ROM固化有引導(dǎo)轉(zhuǎn)載程序（Bootloader）和中斷向量表等；采用流水線結(jié)構(gòu)提高指令執(zhí)行的整體速度。與C54x系列DSP不同的是，VC5507DSP的存儲空間包括統(tǒng)一的數(shù)據(jù)、程序空間和I/O空間，尋址空間可達(dá)16 MB；片內(nèi)包含兩個算術(shù)邏輯單元（ALUs），在最高時鐘頻率200 MHz下，指令周期可達(dá)5 ns，最高速度可達(dá)400 MIPS。

存儲器采用三菱公司生產(chǎn)的M5M29GB/T320VP系列Flash芯片。全片容量2 MW，分為128個扇區(qū)，通過外部存儲器接口（EMIF）方式與讀寫時序接入DSP；采用2.7 V～3.6 V單電源供電。該系列Flash支持塊編程操作^[3]，讀寫速度要快得多，有利于實時性的改善。

基金項目：國家自然科學(xué)基金資助項目60572083

圖1 語音識別系統(tǒng)硬件框圖

A/D、D/A轉(zhuǎn)換器采用英國Wolfson公司生產(chǎn)的WM8973L芯片。該芯片支持16位A/D、D/A轉(zhuǎn)換，具有可編程輸入輸出增益控制，可通過軟件設(shè)置8～96 KHz的多種采樣頻率^[4]。

3 軟件結(jié)構(gòu)

3.1 系統(tǒng)概述

特定人識別系統(tǒng)采用12維MFCC參數(shù)作為識別引擎的特征參數(shù)，訓(xùn)練與識別都是在片上實時實現(xiàn)的，系統(tǒng)框架如圖2（a）所示。在訓(xùn)練階段，由片上實時提取每個詞條的特征參數(shù)存放到Flash中作為模板庫。在識別階段，將待識別詞條實時提取特征參數(shù)、端點檢測以后，利用動態(tài)時間規(guī)整（DTW）算法與模板庫中的所有模板進(jìn)行匹配，選擇失真度最小的模板作為識別結(jié)果。當(dāng)詞表改變時，只需調(diào)整Flash存儲方式，算法本身無需改動。

(a) 特定人系統(tǒng)

（b）非特定人系統(tǒng)

圖2 識別系統(tǒng)框架

非特定人識別系統(tǒng)的輸入特征矢量為27維，包括12維MFCC、12維MFCC一階差分、一階對數(shù)能量、一階差分能量以及二階差分能量。系統(tǒng)以基于因素的CDHMM模型為基本識別框架，采用Viterbi解碼的幀同步搜索算法進(jìn)行識別。HMM模型訓(xùn)練事先在PC機(jī)上進(jìn)行，而Viterbi搜索則在DSP芯片上實時實現(xiàn)，整個系統(tǒng)為雙層結(jié)構(gòu)，如圖2（b）所示。

訓(xùn)練階段主要完成如下任務(wù)：給定一個HMM模型和一組觀察矢量集合，采用迭代算法調(diào)整模型參數(shù)，使得新模型和給定的觀察矢量集合的似然度最大。首先用初始模型估計觀察矢量由隱含層所有可能的狀態(tài)序列輸出的后驗概率，然后根據(jù)前一步的估計結(jié)果，利用最大似然準(zhǔn)則估計新的HMM模型，所得到的參數(shù)用作下一次迭代。識別階段采用Viterbi搜索，所構(gòu)建的識別網(wǎng)絡(luò)包括狀態(tài)號和狀態(tài)連接關(guān)系等信息。為了減少網(wǎng)絡(luò)搜索的內(nèi)存占用量，采用每個詞條單獨建立網(wǎng)絡(luò)的方法，使得每個詞條的搜索過程可在內(nèi)存中獨立進(jìn)行^[5]。

3.2 語音傳輸與中斷程序設(shè)計

受硬件條件限制，系統(tǒng)的多任務(wù)調(diào)度是由中斷服務(wù)機(jī)制完成的。除了Reset和非屏蔽中斷（NMI）外，還設(shè)置了兩個DMA通道中斷。其中DMA通道2負(fù)責(zé)將麥克風(fēng)錄制的語音數(shù)據(jù)送至DSP內(nèi)核進(jìn)行運算處理；DMA通道3負(fù)責(zé)將回放語音數(shù)據(jù)傳送至揚(yáng)聲器輸出。

在內(nèi)存中，分別設(shè)有兩個128 W的接收緩沖區(qū)和發(fā)送緩沖區(qū)。以接收端為例，對于8 kHz采樣語音，每0.125 ms接收一個16 bits的采樣數(shù)據(jù)，存入其中一個接收緩沖區(qū)中。16 ms后，該接收緩沖區(qū)滿，由DMA控制器向CPU發(fā)出中斷請求，進(jìn)行VAD、特征提取等操作。與此同時，另一個接收緩沖區(qū)繼續(xù)接收語音數(shù)據(jù)。這種數(shù)據(jù)傳輸方式又稱為Ping-Pong傳輸，接收和發(fā)送分別設(shè)置兩個緩沖區(qū)，利用等待時隙，當(dāng)其中一個緩沖區(qū)數(shù)據(jù)傳輸完成，產(chǎn)生中斷時，另一緩沖區(qū)繼續(xù)工作。這種雙緩沖區(qū)傳輸方式可以明顯改善系統(tǒng)實時性能。

3.3 端點檢測

輸入到硬件平臺的語音信號前后經(jīng)常含有大量靜音或噪聲。出于節(jié)省硬件資源的考慮，需要引入端點檢測算法。為了兼顧實時性能和硬件資源占用率，并防止語音切分過嚴(yán)而影響識別性能，采用基于循環(huán)緩沖技術(shù)的四階段語音實時檢測方法，將每幀語音能量與閾值相比較，同時依次存入長度為的循環(huán)緩沖區(qū)并記錄當(dāng)前位置。算法流程如圖3所示，其中、、、、為事先設(shè)定的閾值，它們是通過大量測試得到的。當(dāng)檢測到連續(xù) 幀語音能量高于閾值時，將循環(huán)緩沖區(qū)從當(dāng)前位置斷開，倒退幀作為語音起始點。

（a）端點檢測基本流程

（b）循環(huán)緩沖區(qū)設(shè)計

圖3 基于循環(huán)緩沖區(qū)的端點檢測流程

3.4 特定人識別系統(tǒng)的特征提取與DTW模板匹配

實驗表明，采用12維MFCC系數(shù)作為特征參數(shù)，既可以節(jié)省內(nèi)存空間，又不會對識別率造成很大影響。每幀語音特征參數(shù)在內(nèi)存數(shù)據(jù)空間中連續(xù)存放。采取動態(tài)時間規(guī)整（DTW）算法，其本質(zhì)是一種寬度優(yōu)先的模板匹配過程，即將待識別詞條的特征矢量序列與每個模板進(jìn)行比較，找到一條總失真度最小的路徑作為識別結(jié)果^[6]。DTW算法簡單，計算量小，占用內(nèi)存小，可以解決語速不均勻的問題，適用于特定人小詞匯量的孤立詞識別系統(tǒng)。

3.5 非特定人識別系統(tǒng)的多級Viterbi搜索與硬件資源消耗分析

非特定人識別基線系統(tǒng)難于在片上實現(xiàn)的瓶頸在于識別時間過長。事實上，如果聲學(xué)模型構(gòu)造合理，絕大多數(shù)錯誤結(jié)果的似然度往往與正確結(jié)果相差較遠(yuǎn)。因此，本系統(tǒng)采用的基于Viterbi解碼的兩階段搜索策略，可以很大程度上緩解識別時間過長的問題。

第一階段為快速匹配階段。利用較為簡單的208個狀態(tài)的單音子聲學(xué)模型，給出匹配程度最高的前Nbest個候選詞條，送入第二階段。第一階段所占用的主要內(nèi)存空間有：詞條的所有特征，在使用27維特征，最大有效語音長度為128幀情況下，需要6.8 KB；輸出分?jǐn)?shù)矩陣，其大小由最大有效語音長度和模型數(shù)量決定，是內(nèi)存開銷最主要的部分，在這里需要占用約62 KB的內(nèi)存；所有詞條的對數(shù)似然度，200詞的情況下為0.8 KB。

第二階段為精確匹配階段，采用較復(fù)雜的358狀態(tài)雙音子模型，根據(jù)第一階段候選詞條構(gòu)建新的識別網(wǎng)絡(luò)，進(jìn)行搜索識別。為了節(jié)約內(nèi)存占用量，設(shè)定第一階段候選詞條數(shù)量的上限為8，這樣，第二階段可能出現(xiàn)的有效狀態(tài)數(shù)量不會超過208個，從而可以使占用內(nèi)存最大的輸出概率矩陣復(fù)用第一階段輸出概率矩陣所占用的那段內(nèi)存，提高內(nèi)存使用效率^[7]。

4 實驗結(jié)果

錄音環(huán)境為辦公環(huán)境，8 kHz采樣，16 bit量化，每個詞條最大持續(xù)時間為2 s，端點檢測的循環(huán)緩沖區(qū)長度 =7 W。特定人識別系統(tǒng)的測試語音為本實驗室自錄的100個孤立詞人名詞表，識別結(jié)果如表1所示。非特定人識別系統(tǒng)的訓(xùn)練集為863男生連續(xù)語音數(shù)據(jù)，測試語音為200詞的人名詞表。第一階段多候選識別結(jié)果如圖4所示?？梢?，雖然一候選的識別率不足94％，但隨著候選詞條數(shù)的增加，正確識別結(jié)果幾乎都包含在第一階段前幾選的識別結(jié)果中。本文選用的八候選策略的識別率可以達(dá)到99.5％。系統(tǒng)最終識別結(jié)果如表2所示，識別率僅從基線系統(tǒng)的98.5％下降到97.5％，而識別時間僅為基線系統(tǒng)的30％。

表1 特定人系統(tǒng)識別性能

識別率

98.00%

識別時間（倍實時）

0.13

內(nèi)存空間占用

程序空間

39 KB

數(shù)據(jù)空間

22 KB

表2 非特定人系統(tǒng)識別性能

基線系統(tǒng)

識別率

98.50％

識別時間（倍實時）

1.00

本系統(tǒng)識別率

一階段多候選識別率

99.50％

二階段第一選識別率

97.50％

識別時間（倍實時）

0.34

本系統(tǒng)內(nèi)存空間占用

程序空間

29 KB

數(shù)據(jù)空間

94 KB

圖4 非特定人系統(tǒng)第一階段多候選識別率

5 結(jié)論

本文提出了一種基于定點DSP的特定人與非特定人語音識別片上系統(tǒng)的實現(xiàn)方法。通過降低特征維數(shù)，改進(jìn)語音預(yù)處理與識別算法等手段，在保證識別性能的前提下，實現(xiàn)了硬件資源的高效率利用。在運算速度為288 MIPS，工作時鐘為144 MHz的條件下，特定人與非特定人識別系統(tǒng)識別率分別為98%與97.5％，識別時間分別為0.13倍實時和0.34倍實時。

本文的創(chuàng)新點在于：采用基于循環(huán)緩沖技術(shù)的四階段實時端點檢測算法，以及基于雙緩沖區(qū)的語音傳輸方式，在核心識別算法的處理中，選擇合適的特征維數(shù)，合理優(yōu)化識別算法流程，在保證識別性能不受影響的前提下，有效改善了硬件資源占用率與系統(tǒng)實時性能。

參考文獻(xiàn)

[1] Zhu Xuan, Chen Yining, Liu Jia, et al. A Novel efficient decoding algorithm for CDHMM-based speech recognizer on chip [A]. Proceeding of ICASSP [C]. Hong Kong: IEEE Press, 2003, 293-296

[2] SPRS244F. TMS320VC5507 Fixed-Point Digital Signal Processor [S]. Texas: Texas Instruments, 2005

[3] MITSUBISHI LSIs M5M29GB/T320VP-80 BLOCK ERASE FLASH MEMORY [S]. 2001

[4] WM8973L Stereo CODEC for Portable Audio Applications [S]. Edinburgh: Wolfson microelectronics, 2004

[5] 朱璇，陳一寧，劉加，劉潤生. 語音識別片上系統(tǒng)中的多級搜索算法[J]. 電子學(xué)報，2004，32（1）：150－153.

[6] 陳立萬. 基于語音識別系統(tǒng)中DTW算法改進(jìn)技術(shù)研究[J]. 微計算機(jī)信息，2006，第5期，267-269

[7] 王瑞. 基于子詞模型的嵌入式語音識別引擎的設(shè)計和實現(xiàn)[D]. 北京：清華大學(xué)，2003