2 特征子空間分離
基于語(yǔ)音特征子空間分離的說(shuō)話人識(shí)別系統(tǒng)中,說(shuō)話人模型由特征子空間表示,模式匹配部分則通過(guò)計(jì)算輸入測(cè)試語(yǔ)音特征矢量與子空間的距離進(jìn)行。特征子空間根據(jù)說(shuō)話人訓(xùn)練語(yǔ)音提取的特征矢量在觀察空間的統(tǒng)計(jì)分布特性,依據(jù)PCA原理選取具有較大權(quán)值的散度向量構(gòu)成。
設(shè)一個(gè)說(shuō)話人訓(xùn)練語(yǔ)音集合為{S1,S2,…,SN},每一個(gè)訓(xùn)練語(yǔ)音樣本經(jīng)過(guò)特征提取后形成特征矢量序列,即如果特征矢量具有P個(gè)參數(shù),則特征矢量Vij表示P維觀察空間的一個(gè)點(diǎn),所有的特征矢量在觀察空間形成具有一定統(tǒng)計(jì)分布特性的點(diǎn)集{V1,V2,…,VM},其中M是說(shuō)話人所有訓(xùn)練語(yǔ)音特征矢量的總數(shù)。描述說(shuō)話人語(yǔ)音特征矢量在觀察空間分布的一個(gè)主要統(tǒng)計(jì)指標(biāo)是分布散度,它可以由平均特征矢量和自協(xié)方差矩陣表示,如下:
公式(1)中平均特征矢量V反映說(shuō)話人所有特征矢量在觀察空問(wèn)的中心點(diǎn)。公式(2)中自協(xié)方差矩陣R是一個(gè)P×P正定對(duì)稱矩陣,它反映了說(shuō)話人特征矢量各參數(shù)的平均偏離值,因此可以衡量特征矢量在觀察空間的分布散度。
求自協(xié)方差矩陣R的本征值{λ1,λ2,…,λP}和相應(yīng)的本征向量{e1,e2,…,eP},則它們之間的關(guān)系如下式(3)~(5)所示。其中φ是由本征向量作為每一列構(gòu)成的P×P矩陣,A是由本征值構(gòu)成的對(duì)角矩陣。
因?yàn)楸菊飨蛄縠i,i=1~P是從描述說(shuō)話人語(yǔ)音特征矢量分布散度的自協(xié)方差矩陣計(jì)算得到,所以,從空間的角度看,說(shuō)話人的語(yǔ)音特征分布完全可以由以平均特征矢量V為中心,本征向量ei,i=l~P為正交歸一化基底的子空間描述,如圖1所示。這樣,就從語(yǔ)音特征觀察空問(wèn)將說(shuō)話人語(yǔ)音特征子空間分離了出來(lái),不同的說(shuō)話人具有不同的特征子空間。
雖然計(jì)算得到的本征向量個(gè)數(shù)與觀察空間維數(shù)相同,但有些本征向量對(duì)應(yīng)的本征值較小,在表示語(yǔ)音特征分布散度時(shí)影響較小。因此,實(shí)際應(yīng)用中可以選擇具有較大散度權(quán)值(本征值)的向量構(gòu)成子空間的基向量。圖1顯示了一個(gè)三維觀察空間中分離出的兩個(gè)二維說(shuō)話人特征子空問(wèn)例子,這些子空間的基底對(duì)應(yīng)前兩個(gè)較大的散度權(quán)值。第4小節(jié)分析了選取不同散度權(quán)值本征向量構(gòu)成子空間情況下的識(shí)別性能,結(jié)果表明子空間維數(shù)并非越多越好。
說(shuō)話人語(yǔ)音特征子空間本質(zhì)上是根據(jù)訓(xùn)練語(yǔ)音特征矢量在觀察空間的統(tǒng)計(jì)分布特性分析得到的一種結(jié)構(gòu)性說(shuō)話人模型,各子空間的基底描述了說(shuō)話人語(yǔ)音特征分布的框架結(jié)構(gòu)。因此,可以認(rèn)為子空間融合了說(shuō)話人語(yǔ)音特征的統(tǒng)計(jì)特性和結(jié)構(gòu)特性,可由下式(6)表示:
3 子空間距離測(cè)度與模式匹配
系統(tǒng)模式匹配對(duì)輸入測(cè)試語(yǔ)音與各說(shuō)話人子空間的相關(guān)度進(jìn)行分析,提供說(shuō)話人身份的判別依據(jù)。設(shè)輸入測(cè)試語(yǔ)音St相應(yīng)的特征矢量序列為則通過(guò)計(jì)算該特征矢量序列與說(shuō)話人特征子空間的距離來(lái)分析測(cè)試語(yǔ)音與子空間的相關(guān)度,距離越小,相關(guān)度越大。最終的說(shuō)話人識(shí)別判決可以依據(jù)最小距離準(zhǔn)則進(jìn)行,即測(cè)試語(yǔ)音說(shuō)話人所對(duì)應(yīng)的子空間應(yīng)該與測(cè)試語(yǔ)音之間的距離最小,即相關(guān)度最大。
輸入語(yǔ)音特征矢量Vt與子空間的距離測(cè)度采用子空問(wèn)投影距離計(jì)算,如下式(7)所示。其中Q是子空間的維數(shù),Q≤P。
上式第一項(xiàng)是觀察空間特征矢量Vt與說(shuō)話人語(yǔ)音特征子空間中心矢量V之差向量Vt一V的平方模;第二項(xiàng)是這個(gè)差向量Vt一V在子空間各維投影的平方和,代表了這個(gè)差向量在子空間上的投影長(zhǎng)度的平方。兩項(xiàng)相減就是輸入測(cè)試語(yǔ)音特征矢量Vt與子空間的距離。
以上距離測(cè)度中采用了訓(xùn)練語(yǔ)音的平均特征矢量V,使觀察空間特征矢量轉(zhuǎn)換為適合子空間處理的差向量形式。實(shí)際應(yīng)用中,說(shuō)話人語(yǔ)音特征是時(shí)變的,并引起特征矢量統(tǒng)計(jì)分布特性的變化,其表現(xiàn)之一是平均特征矢量隨時(shí)問(wèn)的漂移。從子空間角度看,這個(gè)平均特征矢量的變化代表了說(shuō)話人語(yǔ)音特征子空間的一種整體時(shí)變漂移,在計(jì)算子空間距離時(shí)如果不能及時(shí)反映這種變化,將可能引起一定程度的失真,為此,定義第二種距離測(cè)度如下:
前面兩項(xiàng)的含義與第一種測(cè)度d1(Vt,SF)是一致的,但差向量不是根據(jù)訓(xùn)練語(yǔ)音的平均特征矢量V形成,而是由輸入測(cè)試語(yǔ)音的平均特征矢量Vt形成。這樣,不僅使觀察空間特征矢量轉(zhuǎn)換為適合子空間處理的差向量形式,并且使形成差向量的兩個(gè)特征矢量在時(shí)間上一致起來(lái)。但是,子空間是根據(jù)訓(xùn)練語(yǔ)音構(gòu)造的,其中心特征矢量是訓(xùn)練語(yǔ)音的平均特征矢量,距離測(cè)度中必須反映這一差異。所以,在第二種距離測(cè)度中增加第三項(xiàng)描述訓(xùn)練語(yǔ)音和測(cè)試語(yǔ)音特征矢量的平均差異,兩者通過(guò)加權(quán)系數(shù)c結(jié)合,其中N是測(cè)試語(yǔ)音短時(shí)幀個(gè)數(shù)。因此,這一距離測(cè)度不僅描述了特征矢量與說(shuō)話人特征子空間的距離,而且描述了測(cè)試語(yǔ)音特征與子空間所表示的說(shuō)話人語(yǔ)音特征的平均距離,同時(shí)考慮了語(yǔ)音特征的結(jié)構(gòu)性和統(tǒng)計(jì)特性差異。加權(quán)系數(shù)c的選擇使兩類距離對(duì)整個(gè)測(cè)度的影響保持平衡,可以通過(guò)各自的統(tǒng)計(jì)方差之比計(jì)算。
模式匹配通過(guò)計(jì)算整個(gè)輸入測(cè)試語(yǔ)音特征矢量序列與子空間的距離進(jìn)行。利用以上距離測(cè)度,輸入測(cè)試語(yǔ)音St與說(shuō)話人語(yǔ)音特征子空問(wèn)的總距離如下:
設(shè)系統(tǒng)需要識(shí)別的M個(gè)說(shuō)話人對(duì)應(yīng)的子空間分別為SF1~SFM,經(jīng)過(guò)模式匹配得到輸入測(cè)試語(yǔ)音St與各子空間的距離SFD1~SFDM,則識(shí)別判決準(zhǔn)則如下:
4 實(shí)驗(yàn)分析
需要通過(guò)實(shí)驗(yàn)分析的問(wèn)題包括:(1)基于特征子空間識(shí)別方法的有效性?(2)子空間維數(shù)與識(shí)別性能的關(guān)系?并確定一個(gè)最佳子空間維數(shù)。(3)不同子空間距離測(cè)度下識(shí)別性能的比較分析(4)不同特征參數(shù),例如LPCC、MFCC情況下識(shí)別性能分析?(5)不同長(zhǎng)度測(cè)試語(yǔ)音輸入時(shí),說(shuō)話人識(shí)別性能的變化趨勢(shì)?(6)在相同訓(xùn)練語(yǔ)音數(shù)據(jù)、實(shí)驗(yàn)環(huán)境和條件下,子空間方法和VQ、GMM等其他方法的識(shí)別性能比較分析。
4.1 實(shí)驗(yàn)數(shù)據(jù)與條件
語(yǔ)音數(shù)據(jù)選擇SD2002一D2數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)中包含了在普通實(shí)驗(yàn)室環(huán)境下通過(guò)計(jì)算機(jī)聲音系統(tǒng)采集得到的40個(gè)說(shuō)話人的280條語(yǔ)音片段,其中,男聲26人,女聲14人,每人分別有7段語(yǔ)音,每段語(yǔ)音包括停頓間隙長(zhǎng)度為12秒。語(yǔ)音采樣率為11025Hz,16位量化,單聲道輸入。實(shí)驗(yàn)中,每說(shuō)話人的前4段語(yǔ)音用于模型訓(xùn)練,后3段用于測(cè)試。
在模型訓(xùn)練和識(shí)別測(cè)試中,預(yù)處理部分首先消除輸入語(yǔ)音信號(hào)的背景噪聲,保留純語(yǔ)音數(shù)據(jù),并進(jìn)行權(quán)重系數(shù)為0.97的高頻提升。短時(shí)分析采用27ms哈明窗,幀移步長(zhǎng)18ms。特征參數(shù)LPCC和MFCC為16階,其中,LPCC由16階LPC線性預(yù)測(cè)系數(shù)推導(dǎo)得到,MFCC是基于Mel頻率尺度的倒譜系數(shù),通過(guò)計(jì)算Mel頻率域均勻分布的19個(gè)三角濾波器組的DFT輸出,并經(jīng)DCT變換得到,實(shí)驗(yàn)中選取第l~16個(gè)系數(shù)作為特征參數(shù)。實(shí)驗(yàn)中,特征子空間采用說(shuō)話人的前4段語(yǔ)音信號(hào)進(jìn)行訓(xùn)練,其純語(yǔ)音成分的長(zhǎng)度平均為32秒。測(cè)試實(shí)驗(yàn)采用每說(shuō)話人的后3段語(yǔ)音。
4.2 不同距離測(cè)度和特征參數(shù)下子空間維數(shù)與識(shí)別性能關(guān)系分析
根據(jù)PCA原理,特征子空間可以選擇較大散度本征值對(duì)應(yīng)的本征向量為基底,這樣可以提高子空間之間的非相關(guān)性。但是,選擇的基向量不能過(guò)少,否則可能引起子空間不能充分表示語(yǔ)音特征的分布結(jié)構(gòu)。因此,需要在實(shí)驗(yàn)分析子空間維數(shù)與識(shí)別性能關(guān)系的基礎(chǔ)上確定一個(gè)最佳子空間維數(shù)。
將散度本征值按大小順序排列,并選取前面幾個(gè)較大本征值所對(duì)應(yīng)的本征向量作為子空間的基向量進(jìn)行分析。圖2顯示了采用LPCC特征參數(shù)以及兩種不同子空間距離測(cè)度情況下系統(tǒng)誤識(shí)率隨子空間維數(shù)變化的情況,其中測(cè)試語(yǔ)音長(zhǎng)度為3秒??梢钥吹?,第二種子空間距離測(cè)度總體上比第一種距離測(cè)度更優(yōu)越,但兩種測(cè)度下都顯示當(dāng)子空間維數(shù)為6時(shí)系統(tǒng)的誤識(shí)率最低。圖3顯示了采用第二種子空間距離測(cè)度時(shí),兩種特征參數(shù)LPCC和MFCC所對(duì)應(yīng)的識(shí)別性能隨維數(shù)變化的情況,其測(cè)試語(yǔ)音長(zhǎng)度也是3秒。可以看到,MFCC參數(shù)相對(duì)而言比LPCC要優(yōu)越些,但差距并不大。另外,從圖3同樣可以看到當(dāng)子空間維數(shù)為6時(shí)系統(tǒng)具有最佳識(shí)別性能。
根據(jù)以上實(shí)驗(yàn)結(jié)果可以得出這樣得結(jié)論:基于子空間分離的說(shuō)話人識(shí)別方法是有效的,但其識(shí)別性能隨子空間維數(shù)是變化的,當(dāng)維數(shù)為6時(shí)識(shí)別性能達(dá)到最佳,誤識(shí)率僅為0.189%。因此,在以下的實(shí)驗(yàn)分析中子空間維數(shù)均采用6。
4.3 不同特征參數(shù)下識(shí)別性能與測(cè)試語(yǔ)音長(zhǎng)度關(guān)系分析
實(shí)際應(yīng)用中,測(cè)試語(yǔ)音的長(zhǎng)度不是固定的。因此,衡量一個(gè)說(shuō)話人識(shí)別系統(tǒng)的識(shí)別性能必須針對(duì)不同的測(cè)試語(yǔ)音長(zhǎng)度進(jìn)行分析。
圖4顯示了當(dāng)采用兩種特征參數(shù)LPCC和MFCC時(shí),不同測(cè)試語(yǔ)音長(zhǎng)度下系統(tǒng)的識(shí)別性能情況。其中,子空間距離的計(jì)算采用第二種測(cè)度,即d2(Vt,SF)。
從圖4可以看到,所有測(cè)試語(yǔ)音長(zhǎng)度下系統(tǒng)都能夠得到較好的識(shí)別性能,誤識(shí)率均在3%以下,當(dāng)測(cè)試長(zhǎng)度達(dá)到5秒時(shí),MFCC對(duì)應(yīng)的誤識(shí)率趨于零,但LPCC對(duì)應(yīng)的誤識(shí)率下降趨勢(shì)慢一些。另外可以看到,采用MFCC作為特征參數(shù)時(shí)的識(shí)別性能比LPCC時(shí)優(yōu)越,但差距并不大。
4.4 子空間方法與其他方法的比較分析
說(shuō)話人識(shí)別的根本性問(wèn)題是模型和特征參數(shù),即用怎樣的方法去描述說(shuō)話人的語(yǔ)音特征以及采用什么樣的參數(shù)表示說(shuō)話人語(yǔ)音特征的問(wèn)題。但到目前為止,還沒(méi)有提出專門(mén)用于說(shuō)話人識(shí)別的語(yǔ)音特征參數(shù)和模型,常用的文本無(wú)關(guān)說(shuō)話人模型有GMM和VQ。
圖5和圖6分別顯示了子空間方法與VQ和GMM方法的比較。其中,VQ碼本的碼字?jǐn)?shù)為128,GMM的混合分量數(shù)為16??梢钥吹剑涌臻g方法在測(cè)試語(yǔ)音長(zhǎng)度小于3秒時(shí)其識(shí)別性能優(yōu)于其他方法,而在大于等于3秒時(shí)則相反。這個(gè)結(jié)果說(shuō)明,GMM和VQ等完全基于統(tǒng)計(jì)聚類的方法由于運(yùn)用了說(shuō)話人語(yǔ)音的統(tǒng)計(jì)特性,所以對(duì)于較長(zhǎng)的測(cè)試語(yǔ)音有較可靠的識(shí)別性能,但當(dāng)測(cè)試語(yǔ)音較短時(shí),由于無(wú)法提供可靠的統(tǒng)計(jì)特性進(jìn)行匹配,誤識(shí)率就很快下降。而子空間方法是根據(jù)說(shuō)話人語(yǔ)音特征的分布散度得到的一種空間結(jié)構(gòu)性模型,由于不是完全依靠語(yǔ)音特征的統(tǒng)計(jì)特性,所以在較短的測(cè)試語(yǔ)音時(shí)也能夠得到較好的識(shí)別性能。
5 結(jié)論
依據(jù)PCA原理,從說(shuō)話人語(yǔ)音特征觀察空間根據(jù)其分布散度特性分離出特征子空間作為說(shuō)話人的一種結(jié)構(gòu)性語(yǔ)音模型是有效的。當(dāng)采用MFCC參數(shù),測(cè)試語(yǔ)音長(zhǎng)度為5秒時(shí)系統(tǒng)誤識(shí)率趨于零。特別是在小于3秒的短時(shí)測(cè)試語(yǔ)音情況下,其識(shí)別性能優(yōu)于其他方法。另外,子空間方法在識(shí)別時(shí)的計(jì)算量明顯小于其他方法。
說(shuō)話人識(shí)別和語(yǔ)音識(shí)別中存在同樣的核心問(wèn)題,即沒(méi)有解決說(shuō)話人個(gè)性特征和語(yǔ)義特征的提取和描述,這個(gè)問(wèn)題極難。目前主要采用的特征參數(shù)LPCC、MFCC等反映了語(yǔ)音信號(hào)的頻譜特征,既包含語(yǔ)義特征信息,又包含個(gè)性特征信息,在具體應(yīng)用中只是根據(jù)不同的識(shí)別任務(wù)進(jìn)行語(yǔ)義特征或個(gè)性特征的歸一化處理,主要的歸一化處理通過(guò)語(yǔ)音模型訓(xùn)練進(jìn)行。顯然,這樣的傳統(tǒng)方法為了使語(yǔ)音模型很好地表示說(shuō)話人的語(yǔ)音特征必須通過(guò)大量的語(yǔ)音樣本進(jìn)行訓(xùn)練,測(cè)試時(shí)需要的語(yǔ)音數(shù)據(jù)也比較多。但是,實(shí)際應(yīng)用中系統(tǒng)往往沒(méi)有足夠的數(shù)據(jù)用于這類統(tǒng)計(jì)模型的訓(xùn)練和識(shí)別,因此,在考慮如何提高說(shuō)話人識(shí)別系統(tǒng)魯棒性的同時(shí),需要研究少量語(yǔ)音數(shù)據(jù)前提下的訓(xùn)練和識(shí)別問(wèn)題?;谧涌臻g分離的說(shuō)話人識(shí)別方法在短測(cè)試語(yǔ)音長(zhǎng)度下有一定優(yōu)勢(shì),但在較長(zhǎng)測(cè)試語(yǔ)音情況下識(shí)別性能提高不快。因此,今后將考慮通過(guò)子空間映射,在子空間建立說(shuō)話人統(tǒng)計(jì)模型的方法來(lái)提高總體識(shí)別性能,特別是較長(zhǎng)測(cè)試語(yǔ)音長(zhǎng)度下的識(shí)別性能。
北京2022年10月18日 /美通社/ -- 10月14日,國(guó)際數(shù)據(jù)公司(IDC)發(fā)布《2022Q2中國(guó)軟件定義存儲(chǔ)及超融合市場(chǎng)研究報(bào)告》,報(bào)告顯示:2022年上半年浪潮超融合銷(xiāo)售額同比增長(zhǎng)59.4%,近5倍于...
關(guān)鍵字: IDC BSP 數(shù)字化 數(shù)據(jù)中心東京2022年10月18日 /美通社/ -- NIPPON EXPRESS HOLDINGS株式會(huì)社(NIPPON EXPRESS HOLDINGS, INC.)旗下集團(tuán)公司上海通運(yùn)國(guó)際物流有限公司(Nipp...
關(guān)鍵字: 溫控 精密儀器 半導(dǎo)體制造 BSP要問(wèn)機(jī)器人公司哪家強(qiáng),波士頓動(dòng)力絕對(duì)是其中的佼佼者。近來(lái)年該公司在機(jī)器人研發(fā)方面獲得的一些成果令人印象深刻,比如其開(kāi)發(fā)的機(jī)器人會(huì)后空翻,自主爬樓梯等。這不,波士頓動(dòng)力又發(fā)布了其機(jī)器人組團(tuán)跳男團(tuán)舞的新視頻,表演的機(jī)器人包括...
關(guān)鍵字: 機(jī)器人 BSP 工業(yè)機(jī)器人 現(xiàn)代汽車(chē)