2019年8月15日,微軟正式推出了第七代微軟小冰,這一年也標(biāo)志著微軟小冰的走過了第五個(gè)年頭。作為微軟推廣其人工智能應(yīng)用與落地的高級(jí)品類,并歷經(jīng)了前六代的積累,有著更完備情感計(jì)算引擎的微軟小冰正朝著更全面、更廣泛的平臺(tái)化方向邁進(jìn)。當(dāng)前,微軟小冰自身的技術(shù)演進(jìn)也在持續(xù)的推進(jìn)過程中。面對(duì)平臺(tái)化戰(zhàn)略帶來的多樣化需求,微軟小冰也需要進(jìn)行快速的自我迭代,以應(yīng)對(duì)各種已知的和未知的應(yīng)用場景,以實(shí)現(xiàn)微軟小冰的通用化,甚至在某種程度上實(shí)現(xiàn)自我學(xué)習(xí)。
就像嬰兒咿呀學(xué)語一樣,“對(duì)話”不僅是微軟小冰的價(jià)值輸出核心,也是實(shí)現(xiàn)自身進(jìn)化的引擎。作為一個(gè)走向“自我完備”的對(duì)話AI,微軟小冰需要做到進(jìn)行更長的多輪對(duì)話,從人類和其他對(duì)話AI中學(xué)習(xí),能夠跨模態(tài)吸收知識(shí),還要具備強(qiáng)大的比喻聯(lián)想能力和創(chuàng)造力。這些能力貫穿了對(duì)話機(jī)器人這些年來,甚至可能是未來一段時(shí)間整個(gè)業(yè)界的研究與發(fā)展的方向。
微軟小冰的對(duì)話引擎進(jìn)化,一部分來源于三種模型:檢索模型、生成模型和共感模型。其中,檢索模型通過重用已有的人類的對(duì)話來實(shí)現(xiàn)人機(jī)交互,目前不僅能夠在單輪對(duì)話中實(shí)現(xiàn)高精度的回復(fù)匹配,在多輪對(duì)話中也有著很好地表現(xiàn);生成模型現(xiàn)在能夠自然地把外部的知識(shí)引入進(jìn)來,通過基于注意力機(jī)制的序列到序列的模型遴選話題語料,最后再在解碼的過程中單獨(dú)做出一個(gè)話題的生成概率,讓話題能夠更容易出現(xiàn)在回復(fù)中,使對(duì)話更加深刻。
而共感模型的核心是通過對(duì)話策略對(duì)整個(gè)的對(duì)話流程進(jìn)行把控,因此共感模型背后是由有兩個(gè)模型組成的:回復(fù)生成模型,決定機(jī)器人說什么;策略決定模型,決定機(jī)器人要怎么去說。
這兩個(gè)模型結(jié)合在一起就把微軟小冰從原來基于上下文直接產(chǎn)生回復(fù)的模式,變成了從上下文到?jīng)Q策,然后再根據(jù)這個(gè)決策來決定說什么。共感模型最大的靈活性就在于策略,這個(gè)策略可以是一些要表達(dá)的意圖,比如主動(dòng)引導(dǎo)話題、提問、向?qū)Ψ酱_認(rèn)一些事情,或者聽一聽用戶在說什么,或者做一些無意識(shí)的、簡單的回復(fù)。它也可以是一些話題,也可以是一些情感等等,當(dāng)然也可以是意圖、話題、情感的組合,通過這種策略組合,可以產(chǎn)生非常多樣的、復(fù)雜的對(duì)話流程。通過策略模型就可以去管理整個(gè)復(fù)雜的對(duì)話。
當(dāng)微軟小冰積累足夠多的策略時(shí),團(tuán)隊(duì)引入了meta-word的概念,將語句中的不同屬性排列、變換、組合,就可以生成各種各樣的回復(fù),在整個(gè)對(duì)話的流程中,秩序通過變換屬性就可以組合成多種的對(duì)話。這種模型可解釋性很強(qiáng),并且可以做成像一個(gè)接口一樣,工程師可以通過編輯這個(gè)接口,編輯meta-word中的屬性,以及這個(gè)屬性的值去打造具有各種各樣的風(fēng)格、情感、話題、意圖等等各種各樣的對(duì)話機(jī)器人。
各種模型的不斷進(jìn)化也給微軟小冰的研發(fā)團(tuán)隊(duì)帶來了一個(gè)有趣的嘗試:通過Co-teaching算法讓兩個(gè)檢索模型在訓(xùn)練過程中互為師生,互相交流。在每一次迭代的時(shí)候,一個(gè)模型都把它從數(shù)據(jù)中學(xué)到的知識(shí)傳達(dá)給另外一個(gè)模型,同時(shí)又從另外一個(gè)模型中接觸到它的知識(shí),然后這兩個(gè)模型互相學(xué)習(xí),最終希望能夠得到共同的進(jìn)步。微軟小冰首席語音科學(xué)家欒劍表示:“由于有了Co-teaching,每一個(gè)模型的效果都得到了提升?!?/p>
微軟小冰的對(duì)話引擎進(jìn)化的另一部分來自于多模態(tài)交互。簡單來講,多模態(tài)交互就是用戶通過輸入對(duì)話、語音、文本知識(shí)、多媒體,輸出也可以是對(duì)話、語音、多媒體。在這個(gè)過程中,機(jī)器人能夠把多模態(tài)的知識(shí)連結(jié)在一起,進(jìn)行消化、吸收,最終把它有機(jī)的組合起來,并進(jìn)行輸出。
在關(guān)于多模態(tài)的研究中,微軟小冰團(tuán)隊(duì)受“體驗(yàn)?zāi)M假說”的啟發(fā),通過調(diào)動(dòng)微軟小冰自己以往的記憶,與一些圖像和文字的匹配,使得微軟小冰看到一個(gè)故事的句子之后,調(diào)動(dòng)出她以前的一些經(jīng)驗(yàn),然后模擬出現(xiàn)在的場景,甚至做一些替換,然后使得這個(gè)場景更加一致。其中,上下文感知故事編碼、密集視覺語義匹配以及一對(duì)多覆蓋增強(qiáng)等技術(shù)讓微軟小冰實(shí)現(xiàn)對(duì)文字的聯(lián)想,與圖片進(jìn)行匹配,并通過Storyboard Creator對(duì)現(xiàn)有圖片進(jìn)行再創(chuàng)作,使得文字和場景更加匹配。這種多模態(tài)的表達(dá)方式極大提升了微軟小冰的對(duì)話維度,讓微軟小冰在諸如學(xué)齡前兒童或者失讀癥等環(huán)境等更多場景中也能充分地展現(xiàn)其對(duì)話能力。
隨著第七代微軟小冰的不斷進(jìn)化,其獨(dú)特的創(chuàng)造能力也在不斷突破。唱歌是微軟小冰的“拿手好戲”,參數(shù)模型的演進(jìn)使得小冰現(xiàn)在能夠通過一組DNN就能分析樂譜信息,相比之前利用不同DNN分別分析樂譜信息中關(guān)鍵內(nèi)容,現(xiàn)在的參數(shù)模型能夠讓合成的歌聲更加流暢;而通過原始波形輸入、全卷積網(wǎng)絡(luò)與殘差連接,以及軟分類標(biāo)簽,讓混合伴奏音頻中的人聲音高提取成為可能,這也使得微軟小冰的音準(zhǔn)更加準(zhǔn)確。更優(yōu)質(zhì)的模型和更多的數(shù)據(jù)輸入,讓微軟小冰不僅能夠自己唱歌,出單曲,也能輔助音頻制作者更好地創(chuàng)作,使創(chuàng)作者的效率更高。
微軟小冰的創(chuàng)造里不止唱歌,現(xiàn)在也能夠像人一樣使用比喻句。微軟小冰研發(fā)團(tuán)隊(duì)從中文詩歌的主題中抽取了120個(gè)主題,擴(kuò)展出6個(gè)詞,并用日志進(jìn)行過濾,找出小冰的用戶也喜歡說的一些概念,最終確定了96個(gè)抽象詞,同時(shí)找出3000個(gè)具體的名詞,并將這些詞用Word Embedding來進(jìn)行表達(dá),并通過分別對(duì)形容詞、名詞和動(dòng)詞的不同表達(dá)進(jìn)行不同的處理,讓微軟小冰最終能夠表達(dá)出通順、恰當(dāng)、新穎的比喻句。
不論是引擎的進(jìn)化還是創(chuàng)造方面,第七代微軟小冰正在不斷地突破自我,讓其形象更加智能、立體,甚至更像一個(gè)“人”。并且,第七代微軟小冰正正在覆蓋更多場景,幫助廠商做出各種各樣的AI,讓更多的人用上AI。微軟小冰首席科學(xué)家宋睿華表示:“我們也希望微軟小冰以后能夠成為一個(gè)通用的平臺(tái),能夠讓她幫助廠商包括我們?nèi)プ龀龈鞣N各樣的AI來。這樣最終就可以形成一片AI的森林,我們也把他們叫AI beings?!?/p>





