日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當(dāng)前位置:首頁 > 通信技術(shù) > 通信網(wǎng)絡(luò)
[導(dǎo)讀] 最近一個有意思的現(xiàn)象,是機(jī)器閱讀理解突然開始熱絡(luò)了起來。下面就隨網(wǎng)絡(luò)通信小編一起來了解一下相關(guān)內(nèi)容吧。 2月21日,百度自然語言處理團(tuán)隊研發(fā)的V-Net模型以46.15的Rouge-L得

最近一個有意思的現(xiàn)象,是機(jī)器閱讀理解突然開始熱絡(luò)了起來。下面就隨網(wǎng)絡(luò)通信小編一起來了解一下相關(guān)內(nèi)容吧。

2月21日,百度自然語言處理團(tuán)隊研發(fā)的V-Net模型以46.15的Rouge-L得分登上微軟的MS MARCO(Microsoft MAchine Reading COmprehension)機(jī)器閱讀理解測試排行榜首。

讀題還是讀你?剝開機(jī)器閱讀理解的神秘外衣

加上此前斯坦福大學(xué)的SQuAD競賽中,阿里、哈工大訊飛聯(lián)合實驗室等團(tuán)隊先后超越了人類平均水平。這意味著,機(jī)器閱讀理解領(lǐng)域的兩大頂級賽事:MS MARCO和SQuAD的記錄先后由中國團(tuán)隊打破。

但在熱鬧的“軍備競賽”之余,機(jī)器閱讀理解領(lǐng)域的深處并非一團(tuán)和氣。各種爭議和辯論正在這場“機(jī)器答題大秀”背后上演。

比如說,為什么微軟要緊隨SQuAD之后另起爐灶,發(fā)布自己的數(shù)據(jù)集和競賽?學(xué)術(shù)界關(guān)于機(jī)器閱讀理解的爭議為何一直不斷?

這些疑問或許可以最終歸因到一個問題:讓AI做閱讀理解,到底有什么用?

我們來聊聊“閱讀理解圈”的江湖恩怨,以及接下來可預(yù)見的技術(shù)應(yīng)用未來。

兩大數(shù)據(jù)集對峙:機(jī)器閱讀理解的問題與爭議

所謂的機(jī)器閱讀理解,基本概念跟咱們上學(xué)時做的閱讀理解題很相似,同樣都是給出一段材料和問題,讓“考生”給出正確答案。所不同的,僅僅是機(jī)器閱讀理解的主角變成了AI模型而已。

而機(jī)器閱讀理解領(lǐng)域的比賽方式,就像斯坦福大學(xué)著名的AI競賽ImageNet一樣,都是由一個官方給定的數(shù)據(jù)集+一場跑分競賽組成。各大科技巨頭和世界名校的AI研究團(tuán)隊是主要參賽選手。

百度此次參與的機(jī)器閱讀理解比賽,是微軟在2016年末發(fā)布的MS MARCO。

這個賽事有趣的地方在于,其運用的訓(xùn)練數(shù)據(jù)是微軟在產(chǎn)品實踐中,從真實用戶那里收集來的問題和答案。

這個數(shù)據(jù)集的問題全部來自于BING的搜索日志,然后又整理了這些問題獲得的人工答案作為訓(xùn)練數(shù)據(jù)。這樣做的優(yōu)點在于,可以讓AI模型通過最接近真實應(yīng)用的語境來進(jìn)行學(xué)習(xí)、訓(xùn)練和反向?qū)嵺`,完成“學(xué)以致用”的小目標(biāo)。

圈內(nèi)普遍認(rèn)為,微軟這么不容易地搜集一個源自真實網(wǎng)絡(luò)的數(shù)據(jù)集,就是希望硬懟斯坦福大學(xué)的SQuAD。

2016年早些時候,斯坦福大學(xué)相關(guān)團(tuán)隊制作了一個用來測試AI模型閱讀理解能力的數(shù)據(jù)集。與MS MARCO不同,SQuAD主要訓(xùn)練數(shù)據(jù)是來自維基百科的536篇文章,以及由人類閱讀這些文章后,提出的10萬多個問題及相關(guān)答案。

這種非常像校園考試的數(shù)據(jù)設(shè)定,從誕生之日起就爭議不斷。比如NLP領(lǐng)域的大牛Yoav Goldberg就認(rèn)為這個數(shù)據(jù)集有些太過片面。SQuAD受到指責(zé)的地方,主要可以分為三個層面:

1、問題過分簡單。問題的答案主要源自于文檔中的一個片段,真實應(yīng)用場景中很少遇到這樣的問題。

2、數(shù)據(jù)多樣性不足。SQuAD只有500多篇文章,內(nèi)容不夠豐富,訓(xùn)練出的模型被質(zhì)疑難以處理其他數(shù)據(jù)或者更復(fù)雜的問題。

3、通用性不強(qiáng)。為了跑分的方便,SQuAD的問題結(jié)構(gòu)比較簡單,涉及到的機(jī)器“推理”一面偏弱,導(dǎo)致其實用性數(shù)次受到懷疑。

舉個簡單的例子來描述一下兩個數(shù)據(jù)集之間的不同:SQuAD大多數(shù)問題的答案來自文檔本身,從文檔中“復(fù)制粘貼”就能完成回答,這樣模式固然更加方便,但客觀上對問題類型和答案范圍都做了限制,建立在SQuAD上的問題通常更加直白簡單。而MS MARCO的問題則更傾向真實的語言環(huán)境,需要智能體推理語境進(jìn)行分析。

蘿卜白菜各有所愛,有人認(rèn)為SQuAD是最方便測試的機(jī)器閱讀理解比賽,也有人堅持MS MARCO是最接近人類問答習(xí)慣的競賽。但爭論的背后或許有一個共識正在浮現(xiàn):機(jī)器閱讀理解的應(yīng)用性,已經(jīng)開始受到產(chǎn)業(yè)的廣泛關(guān)注。

進(jìn)擊的數(shù)據(jù)集:AI閱讀也要重視“素質(zhì)教育”

當(dāng)然,MS MARCO的數(shù)據(jù)集結(jié)構(gòu)同樣也有很多爭議。但相類似的“從生活中來”的機(jī)器閱讀理解訓(xùn)練數(shù)據(jù)集正在越來越多。一句話總結(jié)這種趨勢,大概就是大家發(fā)現(xiàn),該讓AI從“應(yīng)試教育”變成“素質(zhì)教育”了。

結(jié)構(gòu)緊湊、體系清晰的SQuAD,雖然可以非常便捷地展現(xiàn)出AI模型的測試結(jié)果,但拓展性和實用性始終受到指責(zé)。許多學(xué)者認(rèn)為,這個數(shù)據(jù)集有些被過分“考試化”了,導(dǎo)致其最終變成為了競賽而競賽。

而直接從互聯(lián)網(wǎng)文本與產(chǎn)品實踐問題中訓(xùn)練出的模型,被認(rèn)為距離應(yīng)用性更近。

其實仔細(xì)想想,機(jī)器閱讀理解這項技術(shù),從來都不是紙上談兵的“象牙塔派”,在我們已經(jīng)熟悉的互聯(lián)網(wǎng)應(yīng)用中,就有大量只能依靠機(jī)器閱讀理解來解決的難題。

舉個例子,當(dāng)用戶在搜索引擎尋找答案的時候,傳統(tǒng)方案只能依靠用戶互助來回答,正確性和效率都嚴(yán)重不足。但智能體進(jìn)行回答,就不能只依靠關(guān)鍵詞填空來處理。比如絕不會有用戶提問“()是我國最長的河流?”;更多情況用戶會詢問復(fù)雜的問題,需要完整的解決方案和建議。那么,從真實提問數(shù)據(jù)中學(xué)習(xí)理解材料、回答問題的方案,近乎于AI技術(shù)滿足搜索引擎體驗升級的唯一出路。

再比如最近爭議不斷的內(nèi)容推薦領(lǐng)域。今日頭條最近反復(fù)出狀況,很大程度來源于輿論指責(zé)其過度依賴關(guān)鍵詞進(jìn)行算法推薦,忽略了用戶的對文章深度與知識性的需求。造成這種情況的原因之一,就在于算法的機(jī)器閱讀理解能力不夠,無法閱讀真實的互聯(lián)網(wǎng)材料,給出個性化的推薦結(jié)果。

除此之外,語音助手、智能客服等領(lǐng)域,都大量依靠于機(jī)器閱讀理解閱讀真實問題、真實互聯(lián)網(wǎng)材料,給出完整答案的AI能力。從真實數(shù)據(jù)中訓(xùn)練AI,可能是破解這些難題的唯一途徑。

中文、通識、應(yīng)用:可預(yù)見的MRC未來

在我們猜想機(jī)器閱讀理解的未來時,會看到幾個比較明顯的趨勢。

首當(dāng)其沖,目前機(jī)器閱讀理解的訓(xùn)練數(shù)據(jù)集和競賽,大部分集中在英文領(lǐng)域。這個尷尬正在一步步被打破。

比如百度在去年發(fā)布了與微軟MS MARCO結(jié)構(gòu)類似全中文數(shù)據(jù)集DuReader。其首批發(fā)布的數(shù)據(jù)集包含20萬真實問題,100萬互聯(lián)網(wǎng)真實文檔,以及42萬人工撰寫生成的答案。由此可見,在中國團(tuán)隊一次次挑戰(zhàn)英文機(jī)器閱讀理解記錄的同時,直接作用于中文世界的機(jī)器閱讀理解應(yīng)該已經(jīng)不遠(yuǎn)了。

另一方面,機(jī)器閱讀理解的技術(shù)能力如何通用化、泛在化,與各種其他NLP技術(shù)體系相擬合,似乎成為了廣為關(guān)注的話題。讓機(jī)器能“理解”的同時,還能歸納、能思考、能創(chuàng)作,勾勒出完整的Deep NLP時代,也已經(jīng)提上了日程。

再者,將機(jī)器閱讀理解能力投入搜索、問答等應(yīng)用領(lǐng)域,產(chǎn)生現(xiàn)實價值的應(yīng)用案例正在增多。相信不久的未來,機(jī)器閱讀理解工具化、集成化,可以滲透到各行各業(yè)當(dāng)中,成為一種信息世界的主流解決方案。

比較大概率的狀況,大概是不久的將來,我們會在信息流中感受到了種難以具體形容卻又真實存在的體驗提升。那就是因為機(jī)器正在“讀你”,而不是“讀題”。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: 驅(qū)動電源

在工業(yè)自動化蓬勃發(fā)展的當(dāng)下,工業(yè)電機(jī)作為核心動力設(shè)備,其驅(qū)動電源的性能直接關(guān)系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動勢抑制與過流保護(hù)是驅(qū)動電源設(shè)計中至關(guān)重要的兩個環(huán)節(jié),集成化方案的設(shè)計成為提升電機(jī)驅(qū)動性能的關(guān)鍵。

關(guān)鍵字: 工業(yè)電機(jī) 驅(qū)動電源

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個照明設(shè)備的使用壽命。然而,在實際應(yīng)用中,LED 驅(qū)動電源易損壞的問題卻十分常見,不僅增加了維護(hù)成本,還影響了用戶體驗。要解決這一問題,需從設(shè)計、生...

關(guān)鍵字: 驅(qū)動電源 照明系統(tǒng) 散熱

根據(jù)LED驅(qū)動電源的公式,電感內(nèi)電流波動大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字: LED 設(shè)計 驅(qū)動電源

電動汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術(shù)之一是電機(jī)驅(qū)動控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機(jī)驅(qū)動系統(tǒng)中的關(guān)鍵元件,其性能直接影響到電動汽車的動力性能和...

關(guān)鍵字: 電動汽車 新能源 驅(qū)動電源

在現(xiàn)代城市建設(shè)中,街道及停車場照明作為基礎(chǔ)設(shè)施的重要組成部分,其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進(jìn)步,高亮度白光發(fā)光二極管(LED)因其獨特的優(yōu)勢逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關(guān)鍵字: 發(fā)光二極管 驅(qū)動電源 LED

LED通用照明設(shè)計工程師會遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關(guān)鍵字: LED 驅(qū)動電源 功率因數(shù)校正

在LED照明技術(shù)日益普及的今天,LED驅(qū)動電源的電磁干擾(EMI)問題成為了一個不可忽視的挑戰(zhàn)。電磁干擾不僅會影響LED燈具的正常工作,還可能對周圍電子設(shè)備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關(guān)鍵字: LED照明技術(shù) 電磁干擾 驅(qū)動電源

開關(guān)電源具有效率高的特性,而且開關(guān)電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機(jī)重量也有所下降,所以,現(xiàn)在的LED驅(qū)動電源

關(guān)鍵字: LED 驅(qū)動電源 開關(guān)電源

LED驅(qū)動電源是把電源供應(yīng)轉(zhuǎn)換為特定的電壓電流以驅(qū)動LED發(fā)光的電壓轉(zhuǎn)換器,通常情況下:LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: LED 隧道燈 驅(qū)動電源
關(guān)閉