日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當前位置:首頁 > 嵌入式 > 嵌入式教程
[導讀]嵌入式實時音樂語音識別系統(tǒng)的實現(xiàn)

引言

隨著電子音樂的快速發(fā)展, 迫切需要一種更智能、更便捷的用戶操作系統(tǒng)。自動音樂語音識別系統(tǒng)能夠提供便利的人機交互[1],方便人們自己學習音樂知識, 將成為一種主要方法,也是一個發(fā)展的方向。目前, 實驗室環(huán)境中自動語音識別系統(tǒng)已經取得了很好的效果, 但是應用于電子音樂方面的自動音樂語音識別卻很少。當自動語音識別應用于電子音樂時, 必須對識別方法進行相應改進, 才能滿足其對運算速度、內存資源等方面的要求。為了解決這個問題, 本文將結合音樂語音的特點,設計并實現(xiàn)嵌入式音樂語音識別系統(tǒng)。

1系統(tǒng)硬件電路設計系統(tǒng)

硬件電路設計的原理框圖如圖1所示,它主要由音樂語音信息采集部分、音樂語音處理DSP部分、程序數(shù)據存儲器FLASH部分、數(shù)據存儲器SRAM部分、鍵盤管理部分、音源芯片語音輸出部分、以及電源部分組成。音樂語音信息采集部分主要由MCU GPL162001來完成,該芯片自帶12bit ADC和72個I/O口,方便鍵盤管理,。音樂語音處理DSP部分選用了目前通用的TI公司的TMS320VC5402 16位微處理器,處理速度快,最快運行速度可達100MIPS,功耗低,是一款理想的DSP處理器??紤]到速度要求較快,DSP的晶振選用100MHZ的晶振。另外,由于音樂輸出要求有專業(yè)的樂音效果,電路中選擇了由中芯微公司提供的64和弦MIDI音頻處理芯片。此外,TMS320VC5402片上沒有FLASH且片內RAM只有16K,考慮到語音數(shù)據比較大,我們外擴了1M的FLASH芯片和64K的SRAM芯片。 DSP(TMS320VC5402) 是整個硬件系統(tǒng)的信號處理中心,完成音樂語音識別工作, 進行RAM及FLASH 存儲芯片的數(shù)據管理與調度, 并向主控芯片 MCU 提供反饋信息。電源的工作電壓為3.3V。

 圖1  系統(tǒng)原理圖                 

2系統(tǒng)的軟件實現(xiàn)

和大部分語音識別系統(tǒng)一樣,音樂語音識別系統(tǒng)本質也是一種模式識別系統(tǒng)。它的基本流程圖如圖2所示,主要包括語音信號預處理,端點檢測,特征參數(shù)求取和語音識別等幾個步驟。

圖2 系統(tǒng)識別算法流程圖

2.1語音信號預處理

語音信號預處理主要是對語音信號進行前期的優(yōu)化處理,方便后面的端點檢測和語音識別,語音信號預處理主要包括分幀處理、預加重處理、加窗處理、濾波和消除毛刺處理等。

2.1.1語音信號的分幀

語音信號的特征是隨著時間而變化的,只有在一段短的時間間隔中,語音信號才保持相對穩(wěn)定一致的特征, 通常這段時間取5~50ms。在程序中取200個采樣點,對于8k的采樣頻率,即相當于25ms。幀間重疊為100個采樣點,亦即12.5ms。

2.1.2預加重

由于語音信號平均功率譜受聲門激勵和口鼻輻射影響,800HZ以上的高頻信號按6DB/倍頻跌落,所以求語音信號頻譜時,頻率越高相應成分越少,高頻部分的頻譜比低頻部分難求,所以要進行預加重處理。在數(shù)字語音信號處理中,數(shù)字語音信號通常都通過一個低階的系統(tǒng)(典型的是一個一階的濾波器),即 式中, 為預加重系數(shù),通常 最為常用的取值是在0.95附近。由于本系統(tǒng)采用的是 =0.94

2.1.3加窗

對每一幀語音進行加窗實質是語音波形乘窗函數(shù),為減少時間窗兩端的坡度,使窗口邊緣兩端平滑過渡到零,減小語音幀的截斷效應, 這里采用典型的應用在語音識別系統(tǒng)中加hamming窗。

2.1.4濾波、消除毛刺

      由于語音信號包含很多噪聲信號,這些噪聲信號在時域中表現(xiàn)出高頻隨機、毛刺等信號,這些信號很可能影響識別的效果,所以,對信號進行帶通濾波和消除毛刺處理能很好提高識別的精度。由于人聲主要在60-1000HZ ,采用50-1000HZ的FIR帶通濾波器對原信號進行濾波,即可獲得良好的效果。 消除毛刺影響主要采用語音信號峰谷值檢測的方法,把相鄰兩峰值之間很不明顯的谷值和相鄰兩谷值之間很不明顯的峰值去掉,對語音曲線中一些較小的毛刺進行曲線整形,消除那些明顯的毛刺![!--empirenews.page--]

2.2端點檢測

      端點檢測是語音識別中的的一個關鍵,也是一個難點,端點檢測的好壞直接影響后面的語音特征參數(shù)提取,影響語音識別的效果。其目的就是從帶有噪聲的語音中檢測出說話人的語音命令, 找出語音段開始和結束的時點。本系統(tǒng)使用語音信號的能量曲線結合過零率來進行端點檢測[5],整個過程如圖3所示。由于人聲的樂音信號范圍在50-1000HZ,首先對原語音信號進行不同頻段的信號濾波,得到六個頻段濾波后的能量曲線, E(1)為50-1000HZ段的語音信號,E(2)100-1000HZ段的語音信號,E(3)200-1000HZ段的語音信號 ,E(4)400-1000HZ段的語音信號,E(5)600-1000HZ段的語音信號,E(5)800-1000HZ段的語音信號。能量分割是依據峰谷點檢測來進行的,利用能量曲線峰谷點地變化,把能量曲線中的語音段分割出來,且把語音段的起點和終點作為我們要求得端點。但是由于語音信號變化情況復雜,尤其是語音連讀緊密的情況下,基于能量曲線的語音分割方法可能分割不開,所以,本系統(tǒng)采用了改進的能量曲線分割算法,通過對語音信號能像曲線分析,我們發(fā)現(xiàn),不同頻段的能量曲線反映的特征不同,對語音信號進行不同頻段的濾波最后得到的能量曲線放映的語音端點信息也不同,有些語音信號在高頻段的能量曲線中能很好的分割開,所以,對語音信號進行六個頻段的濾波得出的基于能量曲線分割的改進算法,在判決依據中,賦予E(1)的權值為1,而E(2)、E(3)、E(4)、E(5)、E(6)要求兩個以上相同才被視為端點。基于所有能量曲線的分割點都要看過零率的門限是否滿足要求,改進算法的用意是在盡可能準確的情況下盡量分割開語言信號, 盡量保證不錯分, 盡量提高分割的準確度,避免誤分。

圖3 端點檢測流程圖

2.3語音特征參數(shù)提取

語音識別參數(shù)的提取較多,由于噪聲的的存在,考慮音樂語音識別系統(tǒng)的對識別的精度要求較高,本系統(tǒng)采用了經典的美爾頻標倒譜參數(shù)MFCC[4],MFCC參數(shù)建立在 Fourier 頻譜分析的基礎上,它的核心思想是利用人耳的感知特性,在語音的頻譜范圍內設置若干個帶通濾波器,每個濾波器具備三角或者正弦的形濾波特性,計算相應濾波器組的信號能量,再通過 DCT 計算對應的倒譜系數(shù),

圖4 MFCC參數(shù)求取過程

2.4語音信號的訓練與識別 

音樂語音識別系統(tǒng)是一個專業(yè)性很強的詞匯量較小的語音識別系統(tǒng),由于識別的速度要求較快,樂音中的詞匯量較少,通常情況下人聲能唱到的樂音的范圍只有幾十個(一般在4個八度以內)。本系統(tǒng)采用采用了計算相對簡單而有效的DTW算法來進行語音識別。該算法基于動態(tài)規(guī)劃的思想,將語音信號的每一幀信號的特征參數(shù)提取出來,就轉化成了一組特征向量。語音識別就是要將這個特征向量同模板庫中已存的語音特征向量(參考模板)進行模板匹配,尋找距離最短的模板。語音識別需要語音模板庫的建立,也就是語音模型的訓練。參照音樂語音音高頻率對照表,我們只對人聲范圍(60HZ-1000HZ即樂音中音名從C- )共四個八度32個音高進行訓練,針對每首曲子中音高的范圍都是在一定范圍以內的,所以往往我們訓練訓練的樣本更少,較小的詞匯量使樂音識別的速度得到大大提高。

3實驗結果與分析

我們對系統(tǒng)的識別性能進行了測試。由6個測試者(3男3女音樂專業(yè)人士)在安靜室內環(huán)境下,選擇方向性較好的麥克風,進行測試實驗。由于男生和女生一般能發(fā)音的音高不一樣,一般男生比女生偏低,首先讓6位測試者對照音名表把他(她)能發(fā)的音的全部錄音、訓練,再隨機選擇幾首曲子進行測試,實驗結果表明, 在對特定人的樂音識別中,由于女生發(fā)音口齒比較清晰,男生比較發(fā)音渾厚,男生的正確識別率在95%以上,女生的正確識別率在97%以上,平均正確識別率在96%以上,滿足實用化要求。

4結 論

本文介紹了一種基于DSP的嵌入式音樂語音識別系統(tǒng)的軟硬件系統(tǒng)。在傳統(tǒng)的語音識別方法上結合音樂語音的特點作了一些改進,敘述了音樂語音識別系統(tǒng)硬件結構、軟件流程,采用了一種基于多頻段能量曲線分割結合過零率來檢測端點的新方法,簡化了運算量,進一步提高了識別性能,把語音識別技術很好的用在電子音樂方面,實現(xiàn)了嵌入式實時音樂語音識別,實驗結果表明,本系統(tǒng)精度高,基本能滿足實用化需求。

本文作者創(chuàng)新點:

(1)把語音識別方法應用于電子音樂方面,設計并實現(xiàn)專業(yè)的音樂語音識別軟硬件系統(tǒng),巧妙采用了濾波、消除毛刺等預處理方法,訓練了專業(yè)的音樂語音樣本,提高語音識別精度。

(2)建立了一種基于多頻段能量曲線分割結合過零率來檢測端點的新方法,在保證不錯分的情況下,提高了語音分割的正確率,同時結合過零率的門限,提高了端點檢測的精度。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

成都2022年10月19日 /美通社/ -- 近期,平安養(yǎng)老險積極籌備個人養(yǎng)老金的產品設計和系統(tǒng)開發(fā)工作,發(fā)展多樣化的養(yǎng)老金融產品,推動商業(yè)養(yǎng)老保險、個人養(yǎng)老金、專屬商業(yè)養(yǎng)老保險等產品供給。 搭養(yǎng)老政策東風 ...

關鍵字: 溫度 BSP 東風 大眾

廣東佛山2022年10月19日 /美通社/ -- 空間是人居生活的基礎單元,承載著生存與活動的最基本功能。而對于理想空間的解構意義卻在物理性容器之外,體現(xiàn)出人們對于空間和生活深層關系的思考,同時也塑造著人與空間的新型連接...

關鍵字: 溫度 BSP 智能化 進程

上海2022年10月19日 /美通社/ -- 10月17日晚間,安集科技披露業(yè)績預告。今年前三季度,公司預計實現(xiàn)營業(yè)收入7.54億元至8.33億元,同比增長60.24%至77.03%;歸母凈利潤預計為1.73億...

關鍵字: 電子 安集科技 BSP EPS

北京2022年10月19日 /美通社/ -- 10月18日,北京市經濟和信息化局發(fā)布2022年度第一批北京市市級企業(yè)技術中心創(chuàng)建名單的通知,諾誠健華正式獲得"北京市企業(yè)技術中心"認定。 北京市企業(yè)技...

關鍵字: BSP ARMA COM 代碼

北京2022年10月18日 /美通社/ -- 10月14日,國際數(shù)據公司(IDC)發(fā)布《2022Q2中國軟件定義存儲及超融合市場研究報告》,報告顯示:2022年上半年浪潮超融合銷售額同比增長59.4%,近5倍于...

關鍵字: IDC BSP 數(shù)字化 數(shù)據中心

上海2022年10月18日 /美通社/ -- 2022年9月5日,是首都銀行集團成立60周年的紀念日。趁著首都銀行集團成立60周年與首都銀行(中國)在華深耕經營12年的“大日子”,圍繞作為外資金融機構對在華戰(zhàn)略的構想和業(yè)...

關鍵字: 數(shù)字化 BSP 供應鏈 控制

東京2022年10月18日  /美通社/ -- NIPPON EXPRESS HOLDINGS株式會社(NIPPON EXPRESS HOLDINGS, INC.)旗下集團公司上海通運國際物流有限公司(Nipp...

關鍵字: 溫控 精密儀器 半導體制造 BSP

廣州2022年10月18日 /美通社/ -- 10月15日,第 132 屆中國進出口商品交易會("廣交會")于"云端"開幕。本屆廣交會上高新技術企業(yè)云集,展出的智能產品超過140,...

關鍵字: 中國智造 BSP 手機 CAN

經過幾十年發(fā)展,嵌入式技術已經用在了我們生活中的方方面面,但是嵌入式始終都帶有小眾,專業(yè)性強的屬性,讓很多非嵌入式領域的同學望而卻步。近十幾年的發(fā)展,物聯(lián)網覆蓋了越來越多領域,包括了家居,商業(yè),工業(yè),農業(yè)等領域,不僅吸引...

關鍵字: 嵌入式 物聯(lián)網 技術

隨著IT技術飛速發(fā)展,互聯(lián)網已經進入了“物聯(lián)網”時代。物聯(lián)網中需要的大量設備不在依賴人與人之間的交互產生聯(lián)系,更多通過協(xié)議、通信、程序設計等方式連接到一處。即 “物聯(lián)網”的目的則是讓所有的物品都具有計算機的智能但并不以通...

關鍵字: 嵌入式 物聯(lián)網 計算機

嵌入式教程

6897 篇文章

關注

發(fā)布文章

編輯精選

技術子站

關閉