日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當(dāng)前位置:首頁 > 芯聞號 > 充電吧
[導(dǎo)讀]上個月,Microsoft宣布,其與Slack,F(xiàn)acebook Workplace以及Google的Hangouts Chat的競爭對手Teams的每日活躍用戶已超過4400萬。這一里程碑卻掩蓋了其

上個月,Microsoft宣布,其與Slack,F(xiàn)acebook Workplace以及Google的Hangouts Chat的競爭對手Teams的每日活躍用戶已超過4400萬。這一里程碑卻掩蓋了其“稍后”發(fā)布的一些新功能。大部分功能都很簡單明了:舉手功能表明你有話要說;離線和低帶寬支持,即使在網(wǎng)絡(luò)連接不暢或沒有網(wǎng)絡(luò)情況下,也能閱讀聊天消息并回復(fù);以及將聊天彈出到一個單獨(dú)窗口。其中還有一項實時噪聲抑制功能吸引了大家眼球 - Microsoft演示AI如何在通話過程中減少讓人分心的背景噪聲。

我們都有過類似經(jīng)歷:視頻時多少次讓某人打開靜音,或是找個安靜的環(huán)境?實時噪聲抑制功能將過濾掉會議中某人的鍵盤打字聲,薯片袋的悉索聲和正在用的吸塵器聲。AI將實時消除背景噪音,讓你只在通話中聽到語音。那它究竟是怎么做到的呢?為了找到答案,VB與Microsoft Teams小組項目經(jīng)理Robert Aichner進(jìn)行了訪談。

隨著新冠病毒危機(jī)迫使數(shù)百萬人在家學(xué)習(xí)和工作,協(xié)作和視頻會議工具的使用呈爆炸式增長。Microsoft正在將Teams作為其Microsoft 365訂閱套件的一部分,推動成為針對企業(yè)和消費(fèi)者的解決方案。該公司依靠其機(jī)器學(xué)習(xí)領(lǐng)域優(yōu)勢來確保AI功能是其最大特色之一。當(dāng)它最終發(fā)布時,實時背景噪聲抑制功能將為充滿噪聲的企業(yè)和家庭帶來福音。此外,Microsoft構(gòu)建此功能的方式還對其他用機(jī)器學(xué)習(xí)的公司具有指導(dǎo)意義。

固定噪聲與非固定噪聲

當(dāng)然,多年來Microsoft Teams,Skype和Skype for Business還有其他通信工具和視頻會議應(yīng)用程序中一直存在噪聲抑制功能。但那些噪聲抑制只能消除固定噪聲,例如在背景中運(yùn)行的電腦風(fēng)扇聲或空調(diào)聲。傳統(tǒng)的噪聲抑制方法是在說話停頓時,估計噪聲的基準(zhǔn),并假設(shè)連續(xù)的背景噪聲不會隨時間而變化,然后將其過濾掉。

Microsoft Teams則更進(jìn)一步,將抑制非固定噪音,例如狗吠或關(guān)門聲?!澳遣皇枪潭ǖ?,”Aichner解釋說。“一般對于這類噪聲你沒法在說話停頓時估計。但現(xiàn)在機(jī)器學(xué)習(xí)就可以讓你創(chuàng)建具有大量代表性噪聲的訓(xùn)練集來進(jìn)行訓(xùn)練?!?/p>

實際上,Microsoft今年早些時就在GitHub上公開了其訓(xùn)練集,“以促進(jìn)該領(lǐng)域研究的發(fā)展?!彪m然第一個版本已公開可用,Microsoft依然在積極致力于擴(kuò)展數(shù)據(jù)集。公司發(fā)言人證實,作為實時噪聲抑制功能的一部分,數(shù)據(jù)集中的某些類別的噪聲并不會在通話中被過濾,包括樂器,笑聲和歌聲。

微軟不能單純地分離出人的聲音,因為有些噪音也有相同的頻率。在語音信號的頻譜圖上,有些噪聲不光出現(xiàn)在說話間隙,還會與說話本身重疊。因此,過濾掉噪音幾乎是不可能的 – 因為語音和噪音存在重疊,而兩者無法區(qū)分。取而代之的是,你需要先訓(xùn)練一個網(wǎng)絡(luò)知道噪聲和語音都是什么樣的。

語音識別和噪聲抑制

為了闡明觀點(diǎn),Aichner將用于噪聲抑制的機(jī)器學(xué)習(xí)模型與用于語音識別的機(jī)器學(xué)習(xí)模型進(jìn)行了比較。對于語音識別的模型,你需要錄下大量用戶對著麥克風(fēng)講話的語料,并通過記錄語料內(nèi)容的方式人工標(biāo)記這些數(shù)據(jù)。與將麥克風(fēng)輸入映射到文字不同,噪聲抑制關(guān)注于將嘈雜的語音轉(zhuǎn)變?yōu)榧儍舻恼Z音。

Aichner說:“我們訓(xùn)練了一個模型來理解噪音和語音之間的差異,然后該模型試圖僅僅保留語音?!薄拔覀冇杏?xùn)練數(shù)據(jù)集,其中收集了數(shù)千種不同的人聲和100多種噪音類型。然后要做的是將沒有噪音的干凈語音與噪音混在一起,這樣就模擬了麥克風(fēng)信號。接著,我們還向模型提供干凈語音作為標(biāo)注數(shù)據(jù)。就好像你告訴模型‘請從這些嘈雜的數(shù)據(jù)中提取出干凈信號,和標(biāo)注數(shù)據(jù)一樣’。這就是在監(jiān)督學(xué)習(xí)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方式,你得有一些標(biāo)注數(shù)據(jù)?!?/p>

對于語音識別而言,標(biāo)注數(shù)據(jù)就是對麥克風(fēng)說話的實際內(nèi)容。而對于實時噪聲抑制來說,標(biāo)注數(shù)據(jù)是干凈的語音。通過提供足夠大的數(shù)據(jù)集(在這種情況下為數(shù)百小時的數(shù)據(jù)),Microsoft可以有效地訓(xùn)練其模型?!凹幢阄业穆曇魶]有出現(xiàn)在訓(xùn)練數(shù)據(jù)中,模型也可以泛化并降低其中的噪音,”Aichner說,“于是當(dāng)我講話時,模型可以從噪音中實時地提取干凈的語音,然后發(fā)送給遠(yuǎn)程人員?!?/p>

挑戰(zhàn)

和語音識別的功能進(jìn)行比較,噪聲抑制更容易實現(xiàn),即使后者是實時的。那么為什么以前沒有實現(xiàn)過?Microsoft的競爭對手可以快速重建它嗎?Aichner列出了構(gòu)建實時噪聲抑制的挑戰(zhàn),包括查找代表性數(shù)據(jù)集,構(gòu)建和縮小模型以及利用機(jī)器學(xué)習(xí)知識。

具有代表性的數(shù)據(jù)集

我們已經(jīng)提到了第一個挑戰(zhàn):代表性數(shù)據(jù)集。團(tuán)隊花費(fèi)了大量時間來弄清楚如何產(chǎn)生能夠代表典型通話情況的聲音文件。

他們從有聲讀物中找出代表男性和女性的典型聲音,因為“男性和女性的聲音之間確實有語音特征上的不同”。他們還用了帶標(biāo)注的YouTube數(shù)據(jù)集,標(biāo)注出了錄制內(nèi)容包含的聲音,比如打字聲和音樂。然后,Aichner的團(tuán)隊用腳本以不同的信噪比將語音數(shù)據(jù)和噪聲數(shù)據(jù)合并在一起。接著通過放大噪音的方式,他們就可以模仿通話中可能發(fā)生的不同實際情況。

但有聲讀物與電話會議完全不同。那難道不會影響模型,從而影響噪聲抑制的效果?

“這是一個很好的觀點(diǎn),”Aichner承認(rèn)?!拔覀兊膱F(tuán)隊也做了一些錄音,以確保我們不僅在生成的合成數(shù)據(jù)上面進(jìn)行訓(xùn)練,而且還要在實際數(shù)據(jù)上能起作用。但要獲得那些真實的錄音肯定要困難得多?!?/p>

隱私限制

Aichner的團(tuán)隊是不允許看到任何用戶數(shù)據(jù)的。此外,微軟內(nèi)部還有著非常嚴(yán)格的隱私保護(hù)準(zhǔn)則。“我不能只是簡單地說:‘現(xiàn)在我要開始記錄下每次會議’?!?/p>

因此,該團(tuán)隊不能使用Microsoft Teams進(jìn)行通話。即使一些員工愿意讓他們記錄自己的會議,但當(dāng)有很明顯的噪音發(fā)生時還是需要人記錄下來。

“這就是為什么我們現(xiàn)在只做了一些小規(guī)模的工作,以確保能使用各種設(shè)備和揚(yáng)聲器等收集一些真實的錄音“Aichner說,”接下來要做的是,將它們作為測試集,也就是接近真實會議場景的測試數(shù)據(jù)。就可以來看我們是否使用了一個準(zhǔn)確的訓(xùn)練集,以及在測試集上的表現(xiàn)如何?當(dāng)然,理想的情況是我能有一個訓(xùn)練集,它包含了所有Teams的錄音,里面夾雜著人們正在聽到的各種噪音。但現(xiàn)實是,我無法像通過獲取其他開源數(shù)據(jù)那樣輕松地獲取相同規(guī)模的數(shù)據(jù)。“

另外他還說:“你可能會說它應(yīng)該變得更好。當(dāng)然,如果有更具代表性的數(shù)據(jù),它可能會變得更好。所以我認(rèn)為在未來,可以看看是否能進(jìn)一步改善。但就目前而言,即使僅僅使用現(xiàn)有的公開數(shù)據(jù),它已經(jīng)表現(xiàn)得很好了?!?/p>

云端和邊緣端

接下來的挑戰(zhàn)就是要確定:如何構(gòu)建神經(jīng)網(wǎng)絡(luò)、模型結(jié)構(gòu)應(yīng)該是什么樣子以及如何迭代。機(jī)器學(xué)習(xí)模型經(jīng)歷了很多的調(diào)整,這需要大量的計算,這使得Aichner的團(tuán)隊需要花很長時間才能在Azure(當(dāng)然得是它)的多塊GPU上完成模型的訓(xùn)練。

”很多機(jī)器學(xué)習(xí)任務(wù)是在云端完成的,“Aichner說,“比如對于語音識別任務(wù)來說,你對著麥克風(fēng)說話,這段話會被發(fā)送到云端。借助云上強(qiáng)大的計算能力,便可以運(yùn)行這些大型的模型來識別這段語音。但對于我們來說,由于這是實時通信我需要處理每一幀,假設(shè)它是10毫秒或20毫秒一幀,那我就要在這個時間以內(nèi)處理完它,這樣才可以立刻回傳給你。所以我不能把它發(fā)送到云端,等待噪音抑制,再回傳回來。“

對于語音識別來說,利用云可能還是有意義的。但對于實時的噪音抑制,它就沒啥意義了。一旦你有了機(jī)器學(xué)習(xí)模型后,你應(yīng)當(dāng)縮小它以適應(yīng)客戶端,有可能是一部手機(jī)或是一臺電腦。一個只針對擁有高端機(jī)人群的機(jī)器學(xué)習(xí)模型是沒有意義的。

將處理推向邊緣端

讓機(jī)器學(xué)習(xí)模型留在邊緣端而不是云端還有一個原因:微軟希望限制服務(wù)器的使用,有時,甚至一開始不用服務(wù)器。對于Microsoft Teams中的一對一呼叫來說,呼叫設(shè)置通過服務(wù)器進(jìn)行,但實際的音頻和視頻信號數(shù)據(jù)包是直接在兩個參與者之間發(fā)送的。對于組呼叫或計劃會議來說,需要有一臺服務(wù)器,但微軟會將這臺服務(wù)器上的負(fù)載降至最低。為每個呼叫執(zhí)行大量服務(wù)器處理不光會增加成本,每個額外的網(wǎng)絡(luò)躍點(diǎn)也會增加延遲。從成本和延遲的角度來看,在邊緣端進(jìn)行處理效率會更好。

“你要確保將盡可能多的計算推送到用戶端,因為這實際上并不會涉及任何成本。你已經(jīng)有筆記本電腦、PC或是手機(jī)了,只不過要多做一些其他處理。只要你的CPU沒過載,就沒有問題~“Aichner說。

當(dāng)我指出,電池壽命,尤其是不在連接狀態(tài)設(shè)備的電池,是其中一項成本時,Aichner這樣說:“是啦,我們當(dāng)然也關(guān)注到了這一點(diǎn),我們可不想因為僅僅添加了一些噪聲抑制功能就降低了設(shè)備的電池續(xù)航時間。這絕對是要滿足的另一個需求,要確保不會在這一點(diǎn)上因小失大?!?/p>

下載大小和未來

團(tuán)隊不能僅僅考慮可能失敗,還要考慮到未來發(fā)展。因為我們現(xiàn)在討論的是機(jī)器學(xué)習(xí)模型,所以工作是永無止境的。

“我們正在努力去構(gòu)建一種將來也具有靈活性的產(chǎn)品,因此在發(fā)布第一個功能后,我們不會止步于噪聲抑制”,Aichner說,”我們想讓它越來越好。也許對于一些噪聲測試,現(xiàn)在表現(xiàn)還不盡如人意,但我們希望能夠有能力去改進(jìn)它。只要有性能提升,Teams的用戶一定就能下載到最新的模型,使用質(zhì)量更高的產(chǎn)品?!?/p>

模型本身將以幾兆字節(jié)的速度運(yùn)行,但這不會影響客戶端本身的大小?!斑@也是我們的另一個要求,當(dāng)用戶在手機(jī)、臺式機(jī)或筆記本電腦上下載我們應(yīng)用時,會想要最小化下載大小,你也會想要讓人們盡快完成下載?!?/p>

Aichner還說:“‘只是為一些模型’在下載中增加兆字節(jié)是不可取的,當(dāng)你安裝完Microsoft Teams后,模型將會稍后在后臺下載完成。這也使我們在將來變得更加靈活,可以做更多的事,建立更多不同的模型?!?/p>

機(jī)器學(xué)習(xí)專業(yè)知識

所有以上這些都需要最后一個組成部分:人才。

“你還需要有機(jī)器學(xué)習(xí)的專業(yè)知識,才能知道自己想對這些數(shù)據(jù)進(jìn)行什么樣的操作,”Aichner說,“這就是為什么我們在這個智能通信小組中成立了機(jī)器學(xué)習(xí)團(tuán)隊的原因,我們需要知道應(yīng)該如何處理這些數(shù)據(jù)的專家。什么是正確的模型?深度學(xué)習(xí)有著非常廣泛的意義,你可以創(chuàng)建許多不同類型的模型。我們在世界各地有多個微軟研究中心,有很多音頻方面的專家?,F(xiàn)在正與他們緊密地合作著,因為他們在深度學(xué)習(xí)領(lǐng)域有很多經(jīng)驗和知識。”

數(shù)據(jù)是開源的,也是可以進(jìn)行改進(jìn)的。任何公司都可以輕松地利用公共云,包括主流的Amazon Web Services,Microsoft Azure和Google Cloud,去完成大量必要的運(yùn)算。因此,如果有另一家擁有視頻聊天工具和合適的機(jī)器學(xué)習(xí)人才,他們是否能實現(xiàn)這一目標(biāo)呢?

“或許可以吧?!盇ichner說,“這和一些公司如何獲得語音識別能力類似,他們需要有一個涉及到大量數(shù)據(jù)的語音識別器,還需要有很多專家去構(gòu)建模型。因此,一些大公司正在做著。”

Aichner認(rèn)為,由于規(guī)模龐大,微軟仍然具有很大的優(yōu)勢。“我認(rèn)為價值在數(shù)據(jù),”他說,“我們將來要做的,就像你說的,有一個計劃是微軟的員工可以提供給我們足夠多真實的Teams Calls數(shù)據(jù),以便對客戶的真實情況和所遇到的問題進(jìn)行更好的分析,并對其進(jìn)行更多定制化服務(wù)。”

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: 驅(qū)動電源

在工業(yè)自動化蓬勃發(fā)展的當(dāng)下,工業(yè)電機(jī)作為核心動力設(shè)備,其驅(qū)動電源的性能直接關(guān)系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動勢抑制與過流保護(hù)是驅(qū)動電源設(shè)計中至關(guān)重要的兩個環(huán)節(jié),集成化方案的設(shè)計成為提升電機(jī)驅(qū)動性能的關(guān)鍵。

關(guān)鍵字: 工業(yè)電機(jī) 驅(qū)動電源

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個照明設(shè)備的使用壽命。然而,在實際應(yīng)用中,LED 驅(qū)動電源易損壞的問題卻十分常見,不僅增加了維護(hù)成本,還影響了用戶體驗。要解決這一問題,需從設(shè)計、生...

關(guān)鍵字: 驅(qū)動電源 照明系統(tǒng) 散熱

根據(jù)LED驅(qū)動電源的公式,電感內(nèi)電流波動大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字: LED 設(shè)計 驅(qū)動電源

電動汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術(shù)之一是電機(jī)驅(qū)動控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機(jī)驅(qū)動系統(tǒng)中的關(guān)鍵元件,其性能直接影響到電動汽車的動力性能和...

關(guān)鍵字: 電動汽車 新能源 驅(qū)動電源

在現(xiàn)代城市建設(shè)中,街道及停車場照明作為基礎(chǔ)設(shè)施的重要組成部分,其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進(jìn)步,高亮度白光發(fā)光二極管(LED)因其獨(dú)特的優(yōu)勢逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關(guān)鍵字: 發(fā)光二極管 驅(qū)動電源 LED

LED通用照明設(shè)計工程師會遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關(guān)鍵字: LED 驅(qū)動電源 功率因數(shù)校正

在LED照明技術(shù)日益普及的今天,LED驅(qū)動電源的電磁干擾(EMI)問題成為了一個不可忽視的挑戰(zhàn)。電磁干擾不僅會影響LED燈具的正常工作,還可能對周圍電子設(shè)備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關(guān)鍵字: LED照明技術(shù) 電磁干擾 驅(qū)動電源

開關(guān)電源具有效率高的特性,而且開關(guān)電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機(jī)重量也有所下降,所以,現(xiàn)在的LED驅(qū)動電源

關(guān)鍵字: LED 驅(qū)動電源 開關(guān)電源

LED驅(qū)動電源是把電源供應(yīng)轉(zhuǎn)換為特定的電壓電流以驅(qū)動LED發(fā)光的電壓轉(zhuǎn)換器,通常情況下:LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: LED 隧道燈 驅(qū)動電源
關(guān)閉