引言
根據南方電網調度規(guī)范的要求,500kV變電站應配置錄音系統,調度機構應實現錄音系統的雙重化配置。準確可靠的原始錄音能為事件處理提供可靠的證據,防止出現糾紛。
目前局內變電站通信室空間狹小,機柜位置緊張,然而站內的電話錄音系統設備體積龐大,占據了大量的空間。同時,目前電話錄音系統普遍存在錄音音質較差,查詢和檢索煩瑣復雜的問題,不利于長期存儲和管理,難以對分布于不同區(qū)域的電話進行遠程錄音監(jiān)聽。按規(guī)范要求,調度錄音應保存至少6個月,電話錄音內容可用于安全監(jiān)管,是判定責任糾紛的重要依據,對提高公司服務質量、增強競爭實力等具有重要意義。但現有的錄音方式相對落后,無法滿足以上要求。樹莓派相對于其他的載體價格更低,但計算能力強大,具有很高的性價比。搭建基于樹莓派的電話錄音系統,可以解決傳統錄音系統體積龐大的缺陷,節(jié)約機房內部可利用空間,實現語音文字高識別轉化,保存?zhèn)鬏敺奖?同時,該系統支持多端口輸入,具備強大的兼容性與可拓展性。
1基于樹莓派的電話錄音系統簡介及優(yōu)勢
使用基于樹莓派的電話錄音系統,可解決傳統錄音系統體積龐大的缺陷,充分利用機房空間,滿足多通道錄音的要求,具備強大的兼容性與可拓展性,同時能改善錄音質量,提高自動化程度,降低操作的復雜度,方便用戶運維系統。
1.1設備小型化
最初,樹莓派是由基于Atmel的ATmega644單片機制成的,它采用ARM處理器,與傳統芯片相比具有更高的性能。它的外形只有信用卡大小,以SD/MicroSD卡為內存硬盤,具有HDMI等多種接口,具備個人計算機的基本功能,可以實現錄音設備的小型化。樹莓派采用Linux操作系統,代碼采用Linux系統下的Python語言,功能強大,操作方便?;跇漭傻男滦弯浺粝到y可以節(jié)省機房空間,提高機房空間的利用效率。
1.2系統安全性高
系統權限管理制度嚴格,根據用戶權限不同劃分不同的操作權限,系統通過加密的并網權限,滿足錄音電話的保密要求,保障了網絡安全。
1.3用戶界面更友好
基于樹莓派的電話錄音系統用戶界面友好,采用圖形化操作界面,可以查看錄音記錄及語音對應的文字記錄,可以實時顯示不同錄音通道所處的工作狀態(tài),可以方便快捷地查找信息,界面具有提示和在線幫助機制,可以幫助用戶快速了解系統的使用方法,降低操作難度。本系統是基于web開發(fā)的操作系統,不需要PC也可以登錄,操作更加便捷。
2基于樹莓派的電話錄音系統設計與實現
2.1體系結構
本系統是基于web開發(fā)的操作系統,其中采用B/S架構開發(fā)的web操作層為用戶交互層,用戶通過瀏覽器直接訪問系統進行相關操作:設備交互層通過串口連接UwB定位設備,根據電子圍欄的位置關系進行數據處理入庫。
系統總體架構如表1所示。
語音識別模塊可以將完成特征提取的原始語音信號轉化為相應的特征向量,配合聲學模型、語音字典和語音模型得到識別結果。語音特征提取模塊可以識別語音上有用的特征,排除說話人性別、年齡、說話習慣和錄音條件等不同引起的變化的影響,避免噪聲干擾。語音識別系統如圖1所示。
語音識別系統由特征提取、聲學模型、發(fā)音字典、語言模型和解碼器5個部分組成,語言識別通常使用隱馬爾可夫模型,根據語音信號推斷對應的文字,語音的特征序列為01T=(o1,o2,…,oT):語言模型P(w)代表特定詞序出現的先驗概率:聲學模型P(01T|w)代表當給定詞序為w時,輸出聲學特征01T的概率,根據最大后驗概率,詞序列~w如下:
聲學特征01T的概率P(01T)與詞序w無關,可以忽略不計,所以式(1)可表示為:
馬爾可夫性表示現在決定未來狀態(tài)。馬爾可夫鏈描述了時刻(l-1)決定當前時刻l的狀態(tài)概率分布。隱馬爾可夫模型在此基礎上引入了隱狀態(tài)的概念,它只與當前的狀態(tài)有關。
確定馬爾可夫狀態(tài),需要確定以下5個參數:狀態(tài)空間2=(Si),i=1,2,k,N:初始狀態(tài)的概率分布m=mi:狀態(tài)轉移概率矩陣A=[aij],i=1,2,k,N:觀測序列0=(oi):狀態(tài)輸出概率B=(bi(ok))。其中,bi(ok)表示狀態(tài)i發(fā)生觀測到輸出語音特征ok的概率:aij表示從狀態(tài)Si到Sj的轉移概率:mi表示狀態(tài)Si的初始概率分布。
特征提取模塊將輸入語音轉換為可用于模型訓練的特征矢量,梅爾頻率倒譜系數MFCC是語音識別中常用的特征。首先對語音信號進行分幀、加窗,把語音信號切分為語音片段,一幀語音片段的長度為10~30mS。由于直接截斷語音信號會造成頻譜泄漏,因此需對每幀數據做加窗處理,選擇漢寧窗、漢明窗等合適的窗函數減輕影響。之后通過傅里葉變換將幀信號從時域轉換到頻域分析,傅里葉變換公式如下:
式中:Sa為加窗后第a幀語音信號:Sa(k)為對應的傅里葉變換后的語音信號:n為時間變量:k為常數:N為整數,表示幀長。
然后計算Mel子帶對數能量Em,通過離散余弦變換DCT轉換到DCT域,得到MFCC特征向量,DCT變換公式如下:
式中:C(n)為特征值:皿為Mel濾波器中濾波器的數量:m為時間變量:L為整數,表示MFCC系數階數。
MFCC提取過程如圖2所示。
采用隱馬爾可夫模型進行聲學建模,使用高斯混合模型-隱馬爾可夫模型(GMM-HMM)做模型訓練,進行數據對齊,狀態(tài)輸出概率bi(k)表示狀態(tài)Si的條件下輸出語音特征ok的概率。之后以此作為訓練深層神經網絡DNN模型的標準,用DNN模型替換GMM模型,計算觀察概率,保留轉移概率和初始概率等其他部分,估算HMM狀態(tài)的后驗概率。
基于DNN-HMM的聲學模型語音識別準確率更高,可以自動學習聲學狀態(tài)和特征向量之間的分布關系,提升語音識別系統的性能。
2.2系統的設計與實現
本文設計的基于樹莓派的電話錄音系統按功能可分為錄音、儲存和語音識別轉換幾個部分。錄音系統采用觸發(fā)式錄音,電話摘機應答時自動開始錄音,形成語音數據隊列,通話結束后語音通話通過錄音文件寫入模塊存儲在電話錄音系統中,形成語音文件隊列,之后通過中文語音轉寫模塊將錄音文件轉成文字。日志記錄層中記錄了系統操作信息與操作錯誤信息,便于查詢出錯情況。錄音系統架構圖如圖3所示。
電話錄音系統的界面如圖4所示。用戶可以通過展示界面查看錄音狀態(tài),播放音頻文件,實現實時監(jiān)聽。用戶根據錄音時間查詢音頻文件,系統采用多線程技術,實現對同時錄音的多部電話的并行控制,統一管理位于不同空間的電話。該系統還可通過語音識別將語音數據轉換為文字,用戶可以將音頻文件和文字文件備份到U盤上,實現脫機查詢。
3測試結果
經過測試,本系統的語音識別率相比其他系統提升了5%~10%,反應時間也縮短了。與原有的錄音系統相比,本系統可以在手機上進行操作,便攜程度提高,同時語音識別率較高,可以將語音轉化為對應的文字,快速識別語音內容是否合規(guī),并結合南方電網的調度規(guī)范等規(guī)章制度進行判斷。
錄音設備在輸入語音信號后進行語音錄制與語音識別,之后將錄制的語音與語音識別轉換的文字上傳至系統,用戶可以通過人機交互終端查詢錄音結果。錄音流程如圖5所示。
基于樹莓派的電話錄音系統可以通過電腦、手機等終端訪問,將語音轉為對應的文字,應用在調度臺、變電站里可以保存錄音數據,更方便工作人員保留錄音證據,對用電話進行的工作許可可以更好地進行監(jiān)督,提升了工作效率。
該電話錄音系統占地面積小,終端設備的屏幕大小是7英寸,設備具有USB和RJ11等接口,可以連接電話、U盤等設備,以此記錄保存語音通話。
4結語
本文設計的基于樹莓派的電話錄音系統使用了隱馬爾可夫模型和深度學習等技術,錄音效果好,語音識別準確率高。另外,本系統解決了傳統錄音系統占地面積過大的問題,操作方式簡單,適用于變電站、調度臺等場合。除了電力行業(yè)以外,系統還適用于鐵路、石油、公安等行業(yè)的調度指揮中心和客戶服務中心。





