日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當(dāng)前位置:首頁 > 智能硬件 > 人工智能AI
[導(dǎo)讀]   由于語音分離已經(jīng)變成分類問題,所以語音分離也變得非常重要,已經(jīng)在信號(hào)處理領(lǐng)域被研究了幾十年,數(shù)據(jù)驅(qū)動(dòng)的方法在語音處理領(lǐng)域也得到了廣泛研究。   語音分離的目標(biāo)是把目標(biāo)語音從背景干擾中

  由于語音分離已經(jīng)變成分類問題,所以語音分離也變得非常重要,已經(jīng)在信號(hào)處理領(lǐng)域被研究了幾十年,數(shù)據(jù)驅(qū)動(dòng)的方法在語音處理領(lǐng)域也得到了廣泛研究。

  語音分離的目標(biāo)是把目標(biāo)語音從背景干擾中分離出來。在信號(hào)處理中,語音分離屬于很基本的任務(wù)類型,應(yīng)用范圍很廣泛,包括聽力假體、移動(dòng)通信、魯棒的自動(dòng)語音以及說話人識(shí)別。人類聽覺系統(tǒng)能輕易地將一個(gè)人的聲音和另一個(gè)人的分離開來。即使在雞尾酒會(huì)那樣的聲音環(huán)境中,我們似乎也能毫不費(fèi)力地在其他人的說話聲和環(huán)境噪聲的包圍中聽到一個(gè)人的說話內(nèi)容。因此語音分離問題通常也被叫做「雞尾酒會(huì)問題」(cocktail party problem),該術(shù)語由 Cherry 在他 1953 年那篇著名論文中提出。

  人類最重要的交流方式就是語言,對(duì)我們來說,從背景干擾中分離出語音是至關(guān)重要的。感興趣的演講或者目標(biāo)談話經(jīng)常被其它來源的多余噪聲和表面反射產(chǎn)生的混響所干擾。雖然人類能輕易地分離語音,但事實(shí)證明,在這項(xiàng)基本任務(wù)中,構(gòu)建一個(gè)能夠媲美人類聽覺系統(tǒng)的自動(dòng)化系統(tǒng)是很有挑戰(zhàn)性的。在 Cherry 1953 年出版的書 中,他觀察到:「目前為止沒有任何機(jī)器能解決『雞尾酒會(huì)問題』?!购懿恍业氖?,雖然本文提到的近期研究進(jìn)展已經(jīng)開始解決這個(gè)問題,但在我們這個(gè)領(lǐng)域中,他的結(jié)論一直保持了60 多年的正確性。

  語音分離非常重要,已經(jīng)在信號(hào)處理領(lǐng)域被研究了幾十年。根據(jù)傳感器或麥克風(fēng)的數(shù)量,分離方法可分為單聲道方法(單個(gè)麥克風(fēng))和陣列方法(多個(gè)麥克風(fēng))。單聲道分離的兩個(gè)傳統(tǒng)方法是語音增強(qiáng) 和計(jì)算聽覺場(chǎng)景分析(CASA)。語音增強(qiáng)方法分析語音和噪聲的全部數(shù)據(jù),然后經(jīng)過帶噪語音的噪聲估計(jì),進(jìn)而對(duì)清晰語音進(jìn)行估計(jì)。最簡(jiǎn)單以及應(yīng)用最廣泛的增強(qiáng)方法是頻譜相減法(spectral subtracTIon),其中估計(jì)噪聲的功率譜會(huì)從帶噪語音中刪去。為了估計(jì)背景噪聲,語音增強(qiáng)技術(shù)一般假定背景噪音是穩(wěn)定的,也就是說,其頻譜特性不會(huì)隨時(shí)間變化,或者至少比語音穩(wěn)定一些。CASA 建立在聽覺場(chǎng)景分析的感知理論基礎(chǔ)上,利用聚類約束(grouping cue)如基音頻率(pitch)和起音(onset)。例如,tandem 算法通過交換 pitch 估計(jì)和基于 pitch 的聚類進(jìn)行語音分離 。

  由兩個(gè)或更多的麥克風(fēng)組成的陣列使用不同的語音分離方法。波束成形,或者說空間濾波器,通過恰當(dāng)?shù)年嚵薪Y(jié)構(gòu)增強(qiáng)從特定的方向到達(dá)的信號(hào),進(jìn)而削減來自其它方向的干擾 。最簡(jiǎn)單的波束成形是一種延遲-疊加技術(shù),能將來自目標(biāo)方向的多個(gè)麥克風(fēng)的信號(hào)以相同的相位相加,并根據(jù)相差削減來自其它方向的信號(hào)。噪聲的削減量取決于陣列的間隔、尺寸和結(jié)構(gòu),通常隨著麥克風(fēng)數(shù)量和陣列長(zhǎng)度的增加,削減量也會(huì)增加。顯然,當(dāng)目標(biāo)源和干擾源被共置,或者很靠近的時(shí)候,空間濾波器是無法應(yīng)用的。此外,在回聲場(chǎng)景中,波束成形的效用大幅降低,對(duì)聲源方向的判定變得模糊不清。

  一種最近提出的方法將語音分離當(dāng)作一個(gè)監(jiān)督學(xué)習(xí)問題。監(jiān)督語音分離的最初形成受 CASA 中時(shí)頻掩膜(TIme-frequency (T-F) masking)概念的啟發(fā)。CASA 的主要目標(biāo)是理想二值掩膜(ideal binary mask,IBM),表示目標(biāo)信號(hào)是否控制混合信號(hào)時(shí)頻表示中的一個(gè) T-F 單元。聽力研究顯示,理想二值掩膜能夠顯著提高正常聽力者(NH)和聽力受損者(HI)在嘈雜環(huán)境中的語音理解能力。以 IBM 作為計(jì)算目標(biāo),則語音分離變成了二值分類問題,這正是監(jiān)督學(xué)習(xí)的一種基本形式。在這種情況下,IBM 被當(dāng)做訓(xùn)練中的目標(biāo)信號(hào)或目標(biāo)函數(shù)。在測(cè)試中,學(xué)習(xí)機(jī)器的目的就是估計(jì) IBM,這也是監(jiān)督語音分離的第一訓(xùn)練目標(biāo)。

  由于語音分離已經(jīng)變成分類問題,因此數(shù)據(jù)驅(qū)動(dòng)的方法在語音處理領(lǐng)域得到了廣泛研究。在過去的十年內(nèi),通過運(yùn)用大型訓(xùn)練數(shù)據(jù)和增加計(jì)算資源,監(jiān)督語音分離大幅提高了最先進(jìn)性能。監(jiān)督分離從深度學(xué)習(xí)的發(fā)展中受益良多,這也是本文的主題。監(jiān)督語音分離算法可以大體上分為以下幾個(gè)部分:學(xué)習(xí)機(jī)器、訓(xùn)練目標(biāo)和聲學(xué)特征。本文,我們首先回顧這三個(gè)部分。然后介紹代表性算法,包括單聲道方法和基于陣列的算法。泛化作為監(jiān)督語音分離的特有議題,也將在本文中進(jìn)行討論。

  為避免混淆,我們需要厘清本文使用的幾個(gè)相關(guān)術(shù)語。speech separaTIon 或 speech segregaTIon(語音分離)都指從背景干擾(可能包括非語音噪聲、干擾語音,或者都有,以及室內(nèi)混響)中分離目標(biāo)語音的任務(wù)。此外,「雞尾酒會(huì)問題」(cocktail party problem)也指語音分離(speech separation)。語音增強(qiáng)或去噪(speech enhancement or denoising)指語音和非語音噪聲的分離。如果是多個(gè)說話人的語音分離問題,我們使用術(shù)語「多說話人分離」(speaker separation)。

  

  圖 1. 對(duì)混合了 -5 dB SNR 工廠噪聲的 TIMIT 音頻數(shù)據(jù)使用不同訓(xùn)練目標(biāo)圖示。

  

  圖 2. 使用不同訓(xùn)練目標(biāo)的訓(xùn)練結(jié)果比較。(a)STOI。(b)PESQ。分別用清晰語音混合信噪比為-5dB、0dB、5dB 的工廠噪聲?! ?/p>

  圖 3. DNN 進(jìn)行特征學(xué)習(xí)的圖示,使用線性 SVM 對(duì)學(xué)得的特征進(jìn)行 IBM 值估計(jì) 。

  

  圖 4. 用于語音分離的二階 DNN(two-stage DNN)的圖示 。

  

  圖 5. 語音增強(qiáng)中基于 DNN 的頻譜映射方法圖示 。

  

  圖 6. 配置自動(dòng)編碼器以進(jìn)行無監(jiān)督調(diào)試的語音增強(qiáng) DNN 架構(gòu)。AE 堆疊在 DNN 的頂部作為純度檢測(cè)器,估計(jì)來自 DNN 的清晰語音。

  

  圖 7. 基于 LSTM 的語音分離系統(tǒng)的結(jié)構(gòu)展示 。

  

  圖 8. 前饋 DNN 和基于 LSTM 的 RNN 的 STOI 改進(jìn)。(a)信噪比為-5dB 的經(jīng)訓(xùn)練說話人的結(jié)果。(b)信噪比為-5dB 的未訓(xùn)練說話人的結(jié)果。

  

  圖 9. 基于頻譜映射的語音混響削減 DNN 圖示 [45]。

  

  圖 10. 語音混響削減的混響時(shí)間響應(yīng) DNN 結(jié)構(gòu)圖示  

  圖 11. 基于 DNN 的兩個(gè)說話人分離方法圖示。

  

  圖 12. 聽力正常者和聽力受損者傾聽混合干擾語句的目標(biāo)語句并將目標(biāo)語句從中分離出來時(shí)的平均清晰度得分和標(biāo)準(zhǔn)偏差 。圖中展示了四種不同目標(biāo)-干擾比率的正確率百分比結(jié)果。

  

  圖 14. 雙聲道分離算法的結(jié)構(gòu)圖示。

  

  圖 15. 單聲道掩膜估計(jì)的 MVDR 波束成形器。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅(qū)動(dòng)電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: 驅(qū)動(dòng)電源

在工業(yè)自動(dòng)化蓬勃發(fā)展的當(dāng)下,工業(yè)電機(jī)作為核心動(dòng)力設(shè)備,其驅(qū)動(dòng)電源的性能直接關(guān)系到整個(gè)系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動(dòng)勢(shì)抑制與過流保護(hù)是驅(qū)動(dòng)電源設(shè)計(jì)中至關(guān)重要的兩個(gè)環(huán)節(jié),集成化方案的設(shè)計(jì)成為提升電機(jī)驅(qū)動(dòng)性能的關(guān)鍵。

關(guān)鍵字: 工業(yè)電機(jī) 驅(qū)動(dòng)電源

LED 驅(qū)動(dòng)電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個(gè)照明設(shè)備的使用壽命。然而,在實(shí)際應(yīng)用中,LED 驅(qū)動(dòng)電源易損壞的問題卻十分常見,不僅增加了維護(hù)成本,還影響了用戶體驗(yàn)。要解決這一問題,需從設(shè)計(jì)、生...

關(guān)鍵字: 驅(qū)動(dòng)電源 照明系統(tǒng) 散熱

根據(jù)LED驅(qū)動(dòng)電源的公式,電感內(nèi)電流波動(dòng)大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字: LED 設(shè)計(jì) 驅(qū)動(dòng)電源

電動(dòng)汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動(dòng)汽車的核心技術(shù)之一是電機(jī)驅(qū)動(dòng)控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機(jī)驅(qū)動(dòng)系統(tǒng)中的關(guān)鍵元件,其性能直接影響到電動(dòng)汽車的動(dòng)力性能和...

關(guān)鍵字: 電動(dòng)汽車 新能源 驅(qū)動(dòng)電源

在現(xiàn)代城市建設(shè)中,街道及停車場(chǎng)照明作為基礎(chǔ)設(shè)施的重要組成部分,其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進(jìn)步,高亮度白光發(fā)光二極管(LED)因其獨(dú)特的優(yōu)勢(shì)逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關(guān)鍵字: 發(fā)光二極管 驅(qū)動(dòng)電源 LED

LED通用照明設(shè)計(jì)工程師會(huì)遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關(guān)鍵字: LED 驅(qū)動(dòng)電源 功率因數(shù)校正

在LED照明技術(shù)日益普及的今天,LED驅(qū)動(dòng)電源的電磁干擾(EMI)問題成為了一個(gè)不可忽視的挑戰(zhàn)。電磁干擾不僅會(huì)影響LED燈具的正常工作,還可能對(duì)周圍電子設(shè)備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關(guān)鍵字: LED照明技術(shù) 電磁干擾 驅(qū)動(dòng)電源

開關(guān)電源具有效率高的特性,而且開關(guān)電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機(jī)重量也有所下降,所以,現(xiàn)在的LED驅(qū)動(dòng)電源

關(guān)鍵字: LED 驅(qū)動(dòng)電源 開關(guān)電源

LED驅(qū)動(dòng)電源是把電源供應(yīng)轉(zhuǎn)換為特定的電壓電流以驅(qū)動(dòng)LED發(fā)光的電壓轉(zhuǎn)換器,通常情況下:LED驅(qū)動(dòng)電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: LED 隧道燈 驅(qū)動(dòng)電源
關(guān)閉