伴隨著車聯(lián)網的快速發(fā)展,為了進一步提升智能車載的語音交互體驗,捷通華聲推出了增強型靈云語音識別技術。該技術采用了捷通華聲最新研發(fā)的針對抗噪的深度學習算法,通過對行車環(huán)境噪音信息進行建模,有效處理車外胎噪、風噪,車內空調聲、引擎聲等行車環(huán)境噪音,并利用大量實際行車噪音數據,對算法進行了進一步訓練和優(yōu)化,擁有極強的抗噪能力,即使在車速80km/h的情況下,也能具有極高的語音識別率。
捷通華聲表示,增強型靈云語音識別技術已整合到靈云遠場語音交互解決方案中,通過與多麥克風陣列完美結合,可“過濾”掉絕大多數車載環(huán)境噪音,實現遠距離的語音識別,經過實踐測試,其極高的識別率完全滿足了行車環(huán)境對遠場語音識別的要求,實現人對智能車載設備流暢、自然的語音控制。同時,捷通華聲與國內廣大智能車載設備廠商、解決方案提供商、軟件開發(fā)商等行業(yè)伙伴精誠合作,堅持“合作共贏”的發(fā)展理念,通過為合作伙伴提供麥克風陣列、云+端語音交互、內容服務等軟硬件一體的車載語音解決方案,共同推動智能語音交互技術在車載領域的普及化應用!
增強型靈云語音識別+麥克風陣列 輕松應對行車環(huán)境噪音
長期以來,語音交互技術受行車環(huán)境的背景噪音、回聲、混響等多重復雜因素影響,駕駛者必須要近距離對著麥克風“咬耳朵”講話,且識別率較低,無法滿足駕車途中車載設備識別司機命令的要求,嚴重制約了語音交互技術在智能車載領域的應用。
捷通華聲靈云遠場語音交互解決方案能很好的解決這一問題,該方案包含了多麥克風陣列與增強型語音識別技術。多麥克風陣列能精準拾取說話人的語音信號,抑制噪聲和混響,增強型語音識別技術,對殘余的車載噪音進行進一步處理,大幅提高行車噪音環(huán)境中的語音識別率。
多麥克風陣列能根據聲音到達的時間差,準確計算出聲源與陣列模塊之間的角度和距離,實現對目標聲源的定位與跟蹤,并利用麥克風陣列的空域濾波特性,在目標說話人方向形成拾音波束,僅拾取波束的信號,抑制波束之外的噪聲和混響(反射聲),同時,通過回聲消除技術,過濾掉音頻設備發(fā)出的聲音,讓語音識別引擎獲取的用戶聲音更為清晰純凈。
由于麥克風陣列會不可避免的拾取部分行車環(huán)境噪音,影響語音識別率,對此,捷通華聲綜合考慮車內物理結構和車速變化,對駕車過程中的車外胎噪、風噪,車內空調聲、引擎聲等車載環(huán)境噪音信息進行建模,并用大量的實際行車噪音數據進行訓練,進一步優(yōu)化語音識別引擎,推出了針對智能車載的增強型靈云語音識別技術,輕松應對常見車載環(huán)境噪音。該技術采用深度神經網絡算法(DNN)算法,可在用戶的使用過程中,通過利用積累的語音數據來訓練、優(yōu)化算法,不斷提升語音識別率。通過這一系列的技術,讓車載噪音環(huán)境中的語音識別率大幅提高,充分滿足實際行車過程中人機交互對語音識別技術的要求。
增強型語音識別 讓語音交互真正滿足司機需求
融合了增強型靈云語音識別技術的靈云遠場語音交互解決方案,為合作伙伴提供麥克風陣列、云+端語音交互、內容服務等軟硬件一體的車載語音解決方案。該方案對外提供統(tǒng)一接口,可快速建立語音命令與車載系統(tǒng)以及各種應用之間的連接,搭配開放的服務擴展、靈活的能力支持,讓智能車載具備語音喚醒、聲源定向、遠場降噪、回聲消除、語音打斷、語音糾錯、多輪對話等功能,打造“能聽會說、能理解、會思考”的智能車載設備,徹底打破車載設備應用語音交互技術的產業(yè)瓶頸,真正實現自然、流暢的人機語音交互。
在駕車過程中,當司機被堵車、等待、紅燈等煩擾時,只要隨口說出想聽的音樂、歌曲,車載設備便會自動檢索并播放音樂,緩解司機等待的焦躁情緒;當有電話打進來,而司機正在開車時,只需說出“接聽”,即可接通電話,真正實現“君子動口不動手”,再也不必在開車過程中用手“按啊按、找啊找”,把司機的雙手和眼睛還給駕駛,保證行車安全。
靈云遠場語音交互解決方案在智能車載領域,已全面支持打電話、收發(fā)短信、聽音樂、聽廣播、地圖導航、POI、車況查詢、天氣查詢、服務查詢、設備控制、交通制度問答等多種功能,并為用戶免費提供天氣、交通、新聞、故事、股票、音樂、火車、航班、餐飲、酒店等日常生活常用的30多種信息與內容服務,充分滿足車載場景下司機的各種需求。同時,靈云遠場語音交互解決方案支持隨時打斷,只聽司機真正想表達的信息,并通過語音糾錯和多輪對話,讓語音交互更加流暢、自然,真正滿足司機的需求。
捷通華聲堅持合作共贏 與廣大合作伙伴共享產業(yè)機遇
增強型靈云語音識別技術源自于捷通華聲于2011年推出的首個全方位人工智能開放平臺——靈云平臺(hcicloud.com),歷經四年發(fā)展,靈云平臺已成為國內提供人工智能能力最多、服務用戶最廣的人工智能開放平臺。靈云平臺自推出以來面向產業(yè)全面開放,包括個人開發(fā)者在內的所有合作伙伴,都可以通過靈云平臺獲取智能語音、智能圖像、智能語義、生物特征等技術能力。
伴隨著IOT的快速發(fā)展,2014年,為讓國內智能車載,以及智能家居、家電、機器人等終端設備廠商、集成商、開發(fā)商更方便地使用靈云平臺(hcicloud.com)全方位人工智能能力,捷通華聲推出了企業(yè)級開發(fā)商專用的靈云智能終端交互方案:靈云種子。靈云種子全面整合了靈云平臺多項人工智能技術能力,包括靈云語音識別、語音合成、語義理解、聲紋識別、人臉識別、指紋識別、光學字符識別等能力,并為開發(fā)商提供簡單易用的開發(fā)接口。開發(fā)商通過應用靈云種子,結合多麥克風陣列模塊,可以輕松實現智能語音交互、語音喚醒、語音導航、文字與證照圖像識別、聲紋解鎖、人臉識別等多種人機交互功能,全方位、多角度滿足車載、家居、家電、機器人等終端設備對人工智能技術能力多樣化的市場需求。
一花開放不是春,捷通華聲將堅持 “合作共贏”的發(fā)展理念,與廣大合作伙伴共同分享人工智能產業(yè)機遇,共同創(chuàng)建良好的人工智能產業(yè)生態(tài)。為更好服務全國智能終端設備合作伙伴,捷通華聲將進一步加快在全國各地建立分公司與辦事處的進程,比如在中國華南地區(qū),智能車載、智能家居、機器人開發(fā)與生產廠商云集,并擁有創(chuàng)新力強、科技水平高等獨特優(yōu)勢。為做好合作伙伴的技術支持,2015年捷通華聲相繼在深圳、廈門等地成立了分公司,為合作伙伴提供更及時、更完善的技術支持。
未來發(fā)展,捷通華聲將繼續(xù)以清華大學人工智能研究力量為依托,更加專注智能語音等人工智能技術研究與產業(yè)化的推廣與應用,通過與產業(yè)內合作伙伴的精誠合作,共同推動中國智能終端設備全面服務社會大眾,共同加快智能化生活時代到來的步伐!





