(文章來源:中關村在線)
據外媒報道,此前谷歌曾表示他們已經在語音識別領域獲得了突破,將錯誤率降低到了30%。不過,最近IBM在他們的官網上宣布,他們已經創(chuàng)造了自家語音識別的新紀錄,錯誤率僅為5.5%,與去年的6.9%相比又一次的實現了提升。
這些主要是在非常困難的語音識別任務中測試得來的,紀錄人與人之間日常對話如“買汽車”,計算出來的結果。這種紀錄的語料庫被稱為“SWITCHBOARD”,20多年來一直用于檢驗語音識別系統(tǒng)。通過這種數據庫還能夠得到5.5%的錯誤率,已經是非常難得的了。
此前,谷歌高級研究員杰夫·迪恩(Jeff Dean)日前在人工智能前沿峰會(AI Frontiers)上表示,自2012年以來,谷歌已經把語音識別的詞錯率(WER)降低了30%以上。詞錯率指的是谷歌將一個詞語從語音轉錄成為文字時的錯誤率。
迪恩稱,詞錯率的下降得益于神經網絡的使用,后者是谷歌和其他公司在深度學習中使用的一種系統(tǒng)。研究人員使用大量數據對神經網絡進行訓練,例如語音片段,然后讓他們對新數據作出推斷。谷歌在2012年首次將神經網絡用于語音識別中,當時正值“果凍豆”Android系統(tǒng)發(fā)布。谷歌并不是經常討論公司在語音識別技術上取得的進展,該技術影響著越來越多的谷歌產品,從Google Home智能音箱到Gboard輸入法。





