深度學(xué)習(xí)進(jìn)行語音識(shí)別的方法如何建立自己的語音識(shí)別系統(tǒng)

時(shí)間：2020-07-18 21:42:01

關(guān)鍵字：機(jī)器學(xué)習(xí) 深度學(xué)習(xí) 語音識(shí)別

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 語音識(shí)別正在「入侵」我們的生活。我們的手機(jī)、游戲主機(jī)和智能手表都內(nèi)置了語音識(shí)別。他甚至在自動(dòng)化我們的房子。只需50美元，你就可以買到一個(gè)Amazon Echo Dot，這是一個(gè)可以讓你訂外賣、收

語音識(shí)別正在「入侵」我們的生活。我們的手機(jī)、游戲主機(jī)和智能手表都內(nèi)置了語音識(shí)別。他甚至在自動(dòng)化我們的房子。只需50美元，你就可以買到一個(gè)Amazon Echo Dot，這是一個(gè)可以讓你訂外賣、收聽天氣預(yù)報(bào)、甚至是買垃圾袋的魔術(shù)盒，而這一切你只需要大聲說出：

Aleax，給我訂一個(gè)pizza！

Echo Dot 在2015年的圣誕假期一經(jīng)推出就大受歡迎，在亞馬遜上面立刻售罄。

但其實(shí)語音識(shí)別已經(jīng)存在很多年了，那為什么現(xiàn)在才成為主流呢？因?yàn)樯疃茸R(shí)別終于將語音識(shí)別在非受控環(huán)境下的準(zhǔn)確度提高到了一個(gè)足以投入實(shí)用的高度。

吳恩達(dá)教授曾經(jīng)預(yù)言過，當(dāng)語音識(shí)別的準(zhǔn)確度從95%提升到99%的時(shí)候，它將成為與電腦交互的首要方式。

下面就讓我們來學(xué)習(xí)與深度學(xué)習(xí)進(jìn)行語音室識(shí)別吧！

機(jī)器學(xué)習(xí)并不總是一個(gè)黑盒

如果你想知道神經(jīng)機(jī)器翻譯是如何工作的，你應(yīng)該猜到了我們可以簡(jiǎn)單地將一些聲音送入神經(jīng)網(wǎng)絡(luò)，然后訓(xùn)練它使之生成文本：

這是使用深度學(xué)習(xí)進(jìn)行語音識(shí)別的最高追求，但是很遺憾我們現(xiàn)在還沒有完全做到這一點(diǎn)（至少在筆者寫下這一篇文章的時(shí)候還沒有–我敢打賭，再過幾年我們可以做到）

一個(gè)大問題是語速不同。一個(gè)人可能會(huì)很快的說出”Hello！”，而另一個(gè)人可能非常緩慢的說”heeeelllllllllllllooooo’！’，產(chǎn)生了一個(gè)擁有更多數(shù)據(jù)也更長(zhǎng)的聲音文件。這兩個(gè)文件都應(yīng)該被識(shí)別為同一個(gè)文本–“Hello！”。而事實(shí)證明，把各種長(zhǎng)度的音頻文件自動(dòng)對(duì)齊到一個(gè)固定長(zhǎng)度的文本是很難的一件事情。

為了解決這個(gè)問題，我們必須使用一些特殊的技巧，并進(jìn)行一些深度神經(jīng)網(wǎng)絡(luò)以外的特殊處理。讓我們看看它是如何工作的吧！

將聲音轉(zhuǎn)換為比特（Bit）

顯然，語音識(shí)別的第一步是–我們需要將聲波輸入到電腦中。

我們應(yīng)該怎么將聲波轉(zhuǎn)換為數(shù)字呢？讓我們使用我說的「hello」這個(gè)聲音片段舉個(gè)例子：

聲波是一維的，它在每個(gè)時(shí)刻都有一個(gè)基于其高度的值。讓我們把聲波的一小部分放大看看：

為了將這個(gè)聲波轉(zhuǎn)換成數(shù)字，我們只記錄聲波在等距點(diǎn)的高度：

這被稱為采樣（sampling）。我們每秒讀取數(shù)千次，并把聲波在該時(shí)間點(diǎn)的高度用一個(gè)數(shù)字記錄下來。這基本上就是一個(gè)未壓縮的 .wav 音頻文件。

“CD 音質(zhì)”的音頻是以 44.1khz（每秒 44100 個(gè)讀數(shù)）進(jìn)行采樣的。但對(duì)于語音識(shí)別，16khz（每秒 16000 個(gè)采樣）的采樣率就足以覆蓋人類語音的頻率范圍了。

讓我們把“Hello”的聲波每秒采樣 16000 次。這是前 100 個(gè)采樣：

每個(gè)數(shù)字代表聲波在一秒鐘的16000分之一處的振幅。

數(shù)字采樣小助手

因?yàn)槁暡ú蓸又皇情g歇性的讀取，你可能認(rèn)為它只是對(duì)原始聲波進(jìn)行粗略的近似估計(jì)。我們的讀數(shù)之間有間距，所以我們必然會(huì)丟失數(shù)據(jù)，對(duì)吧？

但是，由于采樣定理（Nyquist theorem），我們知道我們可以利用數(shù)學(xué)，從間隔的采樣中完美重建原始聲波——只要我們的采樣頻率比期望得到的最高頻率快至少兩倍就行。

我提這一點(diǎn)，是因?yàn)閹缀趺總€(gè)人都會(huì)犯這個(gè)錯(cuò)誤，并誤認(rèn)為使用更高的采樣率總是會(huì)獲得更好的音頻質(zhì)量。其實(shí)并不是。

預(yù)處理我們的采樣聲音數(shù)據(jù)

我們現(xiàn)在有一個(gè)數(shù)列，其中每個(gè)數(shù)字代表 1/16000 秒的聲波振幅。

我們可以把這些數(shù)字輸入到神經(jīng)網(wǎng)絡(luò)中，但是試圖直接分析這些采樣來進(jìn)行語音識(shí)別仍然很困難。相反，我們可以通過對(duì)音頻數(shù)據(jù)進(jìn)行一些預(yù)處理來使問題變得更容易。

讓我們開始吧，首先將我們的采樣音頻分成每份 20 毫秒長(zhǎng)的音頻塊。這是我們第一個(gè) 20 毫秒的音頻（即我們的前 320 個(gè)采樣）：

將這些數(shù)字繪制為簡(jiǎn)單的折線圖，我們就得到了這 20 毫秒內(nèi)原始聲波的大致形狀：

雖然這段錄音只有 1/50 秒的長(zhǎng)度，但即使是這樣短暫的錄音，也是由不同頻率的聲音復(fù)雜地組合在一起的。其中有一些低音，一些中音，甚至有幾處高音。但總的來說，就是這些不同頻率的聲音混合在一起，才組成了人類的語音。

為了使這個(gè)數(shù)據(jù)更容易被神經(jīng)網(wǎng)絡(luò)處理，我們將把這個(gè)復(fù)雜的聲波分解成一個(gè)個(gè)組成部分。我們將分離低音部分，再分離下一個(gè)最低音的部分，以此類推。然后將（從低到高）每個(gè)頻段（frequency band）中的能量相加，我們就為各個(gè)類別的音頻片段創(chuàng)建了一個(gè)指紋（fingerprint）。

想象你有一段某人在鋼琴上演奏 C 大調(diào)和弦的錄音。這個(gè)聲音是由三個(gè)音符組合而成的：C、E 和 G。它們混合在一起組成了一個(gè)復(fù)雜的聲音。我們想把這個(gè)復(fù)雜的聲音分解成單獨(dú)的音符，以此來分辨 C、E 和 G。這和語音識(shí)別是一樣的道理。

我們需要傅里葉變換（Fourier Transform）來做到這一點(diǎn)。它將復(fù)雜的聲波分解為簡(jiǎn)單的聲波。一旦我們有了這些單獨(dú)的聲波，我們就將每一份頻段所包含的能量加在一起。

最終得到的結(jié)果便是從低音（即低音音符）到高音，每個(gè)頻率范圍的重要程度。以每 50hz 為一個(gè)頻段的話，我們這 20 毫秒的音頻所含有的能量從低頻到高頻就可以表示為下面的列表：

但是把它們畫成圖表時(shí)會(huì)更容易理解：

你可以看到，在我們的 20 毫秒聲音片段中有很多低頻能量，然而在更高的頻率中并沒有太多的能量。這是典型「男性」的聲音。

如果我們對(duì)每個(gè)20毫秒的音頻塊都重復(fù)這個(gè)過程，我們最后會(huì)得到一個(gè)頻譜圖（從左到右每一列都是一個(gè)29毫秒的音頻塊）

頻譜圖很酷，因?yàn)槟憧梢栽谝纛l數(shù)據(jù)中實(shí)實(shí)在在地看到音符和其他音高模式。對(duì)于神經(jīng)網(wǎng)絡(luò)來說，相比于原始聲波，從這種數(shù)據(jù)中尋找規(guī)律要容易得多。因此，這就是我們將要實(shí)際輸入到神經(jīng)網(wǎng)絡(luò)中去的數(shù)據(jù)表示方式。

從短音頻中識(shí)別字符

現(xiàn)在我們已經(jīng)讓音頻轉(zhuǎn)變?yōu)橐粋€(gè)易于處理的格式了，現(xiàn)在我們將要把它輸入深度神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)的輸入將會(huì)是 20 毫秒的音頻塊。對(duì)于每個(gè)小的音頻切片（audio slice），神經(jīng)網(wǎng)絡(luò)都將嘗試找出當(dāng)前正在說的聲音所對(duì)應(yīng)的字母。

我們將使用一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)——即一個(gè)擁有記憶，能影響未來預(yù)測(cè)的神經(jīng)網(wǎng)絡(luò)。這是因?yàn)樗A(yù)測(cè)的每個(gè)字母都應(yīng)該能夠影響它對(duì)下一個(gè)字母的預(yù)測(cè)。例如，如果我們到目前為止已經(jīng)說了「HEL」，那么很有可能我們接下來會(huì)說「LO」來完成「Hello」。我們不太可能會(huì)說「XYZ」之類根本讀不出來的東西。因此，具有先前預(yù)測(cè)的記憶有助于神經(jīng)網(wǎng)絡(luò)對(duì)未來進(jìn)行更準(zhǔn)確的預(yù)測(cè)。

當(dāng)通過神經(jīng)網(wǎng)絡(luò)跑完我們的整個(gè)音頻剪輯（一次一塊）之后，我們將最終得到一份映射（mapping），其中標(biāo)明了每個(gè)音頻塊和其最有可能對(duì)應(yīng)的字母。這是我說那句「Hello」所對(duì)應(yīng)的映射的大致圖案：

我們的神經(jīng)網(wǎng)絡(luò)正在預(yù)測(cè)我說的那個(gè)詞很有可能是「HHHEE_LL_LLLOOO」。但它同時(shí)認(rèn)為我說的也可能是「HHHUU_LL_LLLOOO」，或者甚至是「AAAUU_LL_LLLOOO」。

我們可以遵循一些步驟來整理這個(gè)輸出。首先，我們將用單個(gè)字符替換任何重復(fù)的字符：

HHHEE_LL_LLLOOO 變?yōu)?HE_L_LO

HHHUU_LL_LLLOOO 變?yōu)?HU_L_LO

AAAUU_LL_LLLOOO 變?yōu)?AU_L_LO

然后，我們將刪除所有空白：

HE_L_LO 變?yōu)?HELLO

HU_L_LO 變?yōu)?HULLO

AU_L_LO 變?yōu)?AULLO

這讓我們得到三種可能的轉(zhuǎn)寫——「Hello」、「Hullo」和「Aullo」。如果你大聲說出這些詞，所有這些聲音都類似于「Hello」。因?yàn)樯窠?jīng)網(wǎng)絡(luò)每次只預(yù)測(cè)一個(gè)字符，所以它會(huì)得出一些純粹表示發(fā)音的轉(zhuǎn)寫。例如，如果你說「He would not go」，它可能會(huì)給出一個(gè)「He wud net go」的轉(zhuǎn)寫。

解決問題的訣竅是將這些基于發(fā)音的預(yù)測(cè)與基于書面文本（書籍、新聞文章等）大數(shù)據(jù)庫的可能性得分相結(jié)合。扔掉最不可能的結(jié)果，留下最實(shí)際的結(jié)果。

在我們可能的轉(zhuǎn)寫「Hello」、「Hullo」和「Aullo」中，顯然「Hello」將更頻繁地出現(xiàn)在文本數(shù)據(jù)庫中（更不用說在我們?cè)嫉幕谝纛l的訓(xùn)練數(shù)據(jù)中了），因此它可能就是正解。所以我們會(huì)選擇「Hello」作為我們的最終結(jié)果，而不是其他的轉(zhuǎn)寫。搞定！

稍等一下！

你可能會(huì)想「但是如果有人說Hullo」怎么辦？這個(gè)詞的確存在。也許「Hello」是錯(cuò)誤的轉(zhuǎn)寫！

當(dāng)然可能有人實(shí)際上說的是「Hullo」而不是「Hello」。但是這樣的語音識(shí)別系統(tǒng)（基于美國(guó)英語訓(xùn)練）基本上不會(huì)產(chǎn)生「Hullo」這樣的轉(zhuǎn)寫結(jié)果。用戶說「Hullo」，它總是會(huì)認(rèn)為你在說「Hello」，無論你發(fā)「U」的聲音有多重。

試試看！如果你的手機(jī)被設(shè)置為美式英語，嘗試讓你的手機(jī)助手識(shí)別單詞「Hullo」。這不行！它掀桌子不干了，它總是會(huì)理解為「Hello」。

不識(shí)別「Hullo」是一個(gè)合理的行為，但有時(shí)你會(huì)碰到令人討厭的情況：你的手機(jī)就是不能理解你說的有效的語句。這就是為什么這些語音識(shí)別模型總是處于再訓(xùn)練狀態(tài)的原因，它們需要更多的數(shù)據(jù)來修復(fù)這些少數(shù)情況。

我能建立自己的語音識(shí)別系統(tǒng)嗎？

機(jī)器學(xué)習(xí)最酷炫的事情之一就是它有時(shí)看起來十分簡(jiǎn)單。你得到一堆數(shù)據(jù)，把它輸入到機(jī)器學(xué)習(xí)算法當(dāng)中去，然后就能神奇地得到一個(gè)運(yùn)行在你游戲本顯卡上的世界級(jí) AI 系統(tǒng)…對(duì)吧？

這在某些情況下是真實(shí)的，但對(duì)于語音識(shí)別并不成立。語音識(shí)別是一個(gè)困難的問題。你得克服幾乎無窮無盡的挑戰(zhàn)：劣質(zhì)麥克風(fēng)、背景噪音、混響和回聲、口音差異等等。你的訓(xùn)練數(shù)據(jù)需要囊括這所有的一切，才能確保神經(jīng)網(wǎng)絡(luò)可以應(yīng)對(duì)它們。

這里有另外一個(gè)例子：你知不知道，當(dāng)你在一個(gè)嘈雜的房間里說話時(shí)，你會(huì)不自覺地提高你的音調(diào)，來蓋過噪音。人類在什么情況下都可以理解你，但神經(jīng)網(wǎng)絡(luò)需要訓(xùn)練才能處理這種特殊情況。所以你需要人們?cè)谠胍糁写舐曋v話的訓(xùn)練數(shù)據(jù)！

要構(gòu)建一個(gè)能在 Siri、Google Now！或 Alexa 等平臺(tái)上運(yùn)行的語音識(shí)別系統(tǒng)，你將需要大量的訓(xùn)練數(shù)據(jù) 。如果你不雇上數(shù)百人為你錄制的話，它需要的訓(xùn)練數(shù)據(jù)比你自己能夠獲得的數(shù)據(jù)要多得多。由于用戶對(duì)低質(zhì)量語音識(shí)別系統(tǒng)的容忍度很低，因此你不能吝嗇。沒有人想要一個(gè)只有八成時(shí)間有效的語音識(shí)別系統(tǒng)。

對(duì)于像谷歌或亞馬遜這樣的公司，在現(xiàn)實(shí)生活中記錄的成千上萬小時(shí)的人聲語音就是黃金。這就是將他們世界級(jí)語音識(shí)別系統(tǒng)與你自己的系統(tǒng)拉開差距的地方。讓你免費(fèi)使用 Google Now！或 Siri，或是只要 50 美元購買 Alexa 而沒有訂閱費(fèi)的意義就是：讓你盡可能多地使用它們。你對(duì)這些系統(tǒng)所說的每一句話都會(huì)被永遠(yuǎn)記錄下來，并用作未來版本語音識(shí)別算法的訓(xùn)練數(shù)據(jù)。這才是他們的真實(shí)目的！

不相信我？如果你有一部安裝了 Google Now！的 Android 手機(jī)，請(qǐng)點(diǎn)擊這里收聽你自己對(duì)它說過的每一句話：

你可以通過 Alexa 在 Amazon 上找到相同的東西。然而，不幸的是，蘋果并不讓你訪問你的 Siri 語音數(shù)據(jù)。

因此，如果你正在尋找一個(gè)創(chuàng)業(yè)的想法，我不建議你嘗試建立自己的語音識(shí)別系統(tǒng)來與 Google 競(jìng)爭(zhēng)。相反，你應(yīng)該想個(gè)辦法，讓人們把自己講了幾個(gè)小時(shí)的錄音交給你。這種數(shù)據(jù)可以是你的產(chǎn)品。

深度學(xué)習(xí)進(jìn)行語音識(shí)別的方法 如何建立自己的語音識(shí)別系統(tǒng)

深度學(xué)習(xí)進(jìn)行語音識(shí)別的方法如何建立自己的語音識(shí)別系統(tǒng)