來(lái)自語(yǔ)音識(shí)別的人工智能給我們帶來(lái)了什么
掃描二維碼
隨時(shí)隨地手機(jī)看文章
(文章來(lái)源:未來(lái)科技視角)
隨著技術(shù)的發(fā)展,語(yǔ)音識(shí)別越來(lái)越滲透到我們的日常生活中,包括亞馬遜的Alexa、Apple的Siri、Microsoft的Corana或Google的許多語(yǔ)音響應(yīng)特征從我們的電話、電腦、手表乃至冰箱中,我們生活的每一個(gè)新的語(yǔ)音互動(dòng)設(shè)備都會(huì)加深我們對(duì)人工智能(AI)和機(jī)器學(xué)習(xí)的依賴人工智能和機(jī)器學(xué)習(xí)人工智能是約翰·麥卡錫于1956年首次提出的。
在最初用于分析和快速計(jì)算數(shù)據(jù)的地方,人工智能現(xiàn)在允許計(jì)算機(jī)執(zhí)行通常僅由人類執(zhí)行的任務(wù)。機(jī)器學(xué)習(xí)是人工智能的一個(gè)子集,是指一個(gè)自學(xué)系統(tǒng)。
它涉及到教授計(jì)算機(jī)識(shí)別模式,而不是使用特定的規(guī)則對(duì)其進(jìn)行編程。訓(xùn)練過(guò)程包括向算法提供大量數(shù)據(jù),并從數(shù)據(jù)中學(xué)習(xí)和識(shí)別數(shù)據(jù)。在早期,程序員必須為他們想要識(shí)別的每一個(gè)對(duì)象(如人和狗)編寫代碼;現(xiàn)在,系統(tǒng)可以通過(guò)向每個(gè)系統(tǒng)顯示許多實(shí)例來(lái)識(shí)別兩者。隨著時(shí)間的推移,這些系統(tǒng)將變得更加智能化,無(wú)需人工干預(yù)機(jī)器學(xué)習(xí)有許多不同的技術(shù)和方法這些方法之一是人工神經(jīng)網(wǎng)絡(luò),其一個(gè)例子是產(chǎn)品推薦。
電子商務(wù)公司通常使用人工神經(jīng)網(wǎng)絡(luò)來(lái)展示用戶更有可能購(gòu)買的產(chǎn)品他們可以從所有用戶的瀏覽體驗(yàn)中提取數(shù)據(jù),并使用這些信息提供有效的產(chǎn)品推薦。Rv的自動(dòng)轉(zhuǎn)錄是由自動(dòng)語(yǔ)音識(shí)別(ASR)和自然語(yǔ)言處理(NLP)驅(qū)動(dòng)的。ASR將口語(yǔ)單詞轉(zhuǎn)換為文本,而NLP處理文本以獲得其含義。
由于人類經(jīng)常用口語(yǔ)體、短小和初始語(yǔ)說(shuō)話,因此需要大量的計(jì)算機(jī)分析自然語(yǔ)言,才能產(chǎn)生準(zhǔn)確的轉(zhuǎn)錄。語(yǔ)音識(shí)別技術(shù)的挑戰(zhàn)正面臨著許多挑戰(zhàn)但范圍縮小了這些包括克服低劣的錄音設(shè)備、背景噪音、難以理解的口音和方言,以及人們聲音的變化。
教機(jī)器學(xué)習(xí)人類的口語(yǔ)閱讀能力還沒(méi)有達(dá)到完美。傾聽(tīng)并理解一個(gè)人所說(shuō)的遠(yuǎn)比聽(tīng)到一個(gè)人的話更重要。作為一個(gè)人,我們通過(guò)人的眼睛、面部表情、肢體語(yǔ)言、語(yǔ)調(diào)和語(yǔ)調(diào)來(lái)解釋話語(yǔ)的意義。另一種發(fā)音的Nuance是人類傾向于縮短某些短語(yǔ)(例如,"我不知道"變成"我不知道")這種人工傾向?qū)φZ(yǔ)音識(shí)別中的機(jī)器學(xué)習(xí)構(gòu)成了另一個(gè)挑戰(zhàn)。機(jī)器學(xué)習(xí)聽(tīng)口音、情緒和曲率,但仍有很長(zhǎng)的路要走隨著技術(shù)越來(lái)越復(fù)雜并且特定的算法使用更多的數(shù)據(jù),這些挑戰(zhàn)正在迅速克服隨著人工智能的發(fā)展和機(jī)器學(xué)習(xí)所需的大量語(yǔ)音數(shù)據(jù)的容易挖掘,它成為下一個(gè)重要的交互界面也就不足為奇了。





