日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當前位置:首頁 > 智能硬件 > 人工智能AI
[導讀] 在機器學習中,更多的數(shù)據(jù)總是比更好的算法好嗎?對于Quora上的這個問題,Netflix公司工程總監(jiān)Xavier Amatriain認為,很多時候增加更多的樣本到訓練集并不會提高模型的性能,而如

機器學習中,更多的數(shù)據(jù)總是比更好的算法好嗎?對于Quora上的這個問題,Netflix公司工程總監(jiān)Xavier Amatriain認為,很多時候增加更多的樣本到訓練集并不會提高模型的性能,而如果沒有合理的方法,數(shù)據(jù)就會成為噪音。他通過Netflix的實踐經驗推導出最終的結論:我們需要的是好的方法,來幫助我們理解如何解釋數(shù)據(jù),模型,以及兩者的局限性,這都是為了得到最好的輸出。

在機器學習中,更多的數(shù)據(jù)總是比更好的算法好嗎?

不是這樣的。有時候更多的數(shù)據(jù)有用,有時它的作用不大。

為數(shù)據(jù)的力量辯護,也許最著名的是谷歌的研發(fā)總監(jiān)Peter Norvig,他聲稱“我們沒有更好的算法。我們僅僅擁有更多的數(shù)據(jù)”。這句話通常是鏈接到文章《The Unreasonable EffecTIveness of Data》,這篇文章也是Norvig自己寫的(雖然它的來源被放在IEEE收費專區(qū),不過你應該能夠在網(wǎng)上找到pdf格式的原文檔)。更好的模型蓋棺定論是Norvig的語錄“所有模型都是錯的,無論如何你都不會需要他們的”被錯誤地引用之時(點擊這里查看作者澄清他是如何被錯誤引用的)。

Norvig等人的作用是指在他們的文章中,他們的觀點早在幾年前被微軟研究人員Banko和Brill在一篇著名的論文[2001]《Scaling to Very Very Large Corpora for Natural Language DisambiguaTIon》中引用。在這篇論文中,作者給出了下圖。

該圖表明,對于給定的問題,迥然不同的算法執(zhí)行結果幾乎是一樣的。然而,添加更多的樣本(單詞)到訓練集里面,可以單調增加模型的精度。

因此,在封閉的情況下,你可能會認為算法更重要。嗯…沒有這么快。事實是,Norvig的斷言以及Banko和Brill的論文都是正確的…在一個環(huán)境中。但是,他們現(xiàn)在再次被錯誤地引用到一些環(huán)境中,而這些環(huán)境與最初的環(huán)境是完全不同的。但是,為了搞明白為什么,我們需要了解一些技術。(我不打算在這篇文章中給出一個完整的機器學習教程。如果你不明白我下面將要做出的解釋,請閱讀我對《How do I learn machine learning?》的回答?

方差還是偏差?

基本的想法是,一個模型的可能表現(xiàn)不好存在兩種可能的(而且是幾乎相反的)原因。

在第一種情況下,對于我們擁有的數(shù)據(jù)量來說,我們所用的模型太復雜了。這是一種以高方差著稱的情形,其可以導致模型過擬合。我們知道,當訓練誤差遠低于測試誤差時,我們正面臨著一個高方差問題。高方差問題可以通過減少特征數(shù)量加以解決,是的,還有一種方法是通過增加數(shù)據(jù)點的數(shù)量。所以,什么樣的模型是Banko &Brill的觀點和Norvig的斷言可以處理的?是的,回答正確:高方差。在這兩種情況下,作者致力于語言模型,其中詞匯表中的大約每一個詞都具有特征。與訓練樣本相比,這有一些模型,它們具有許多特征。因此他們很有可能過擬合。是的,在這種情況下,添加更多的樣本將帶來很多幫助。

但是,在相反的情況下,我們可能有一個模型,它太簡單了以至于無法解釋我們擁有的數(shù)據(jù)。在這種情況下,以高偏差著稱,添加更多的數(shù)據(jù)不會帶來幫助。參見下面一個真實的在Netflix運行的系統(tǒng)的一個制表以及它的性能,同時我們添加更多的訓練樣本到里面去。

所以,更多的數(shù)據(jù)并不總是有幫助的。正如我們剛剛看到的,在許多情況下,增加更多的樣本到我們的訓練集并不會提高模型的性能。

多特征救援

如果你一直跟著我的節(jié)奏,到目前為止,你已經完成了理解高方差和高偏差問題的功課。你可能會認為我故意留下了一些東西要討論。是的,高偏差模型將不會受益于更多的訓練樣本,但是他們很可能受益于更多的特征。所以,到底這是不是都是關于增加“更多”數(shù)據(jù)的?好吧,再強調一次,這得視情況而定。

例如,在Netflix Prize的早期,有一個以評論額外特征的使用來解決問題的博客文章,它是由企業(yè)家和斯坦福大學教授Anand Rajaraman建立的。這個帖子解釋了一個學生團隊如何通過從IMDB添加內容特征來改善預測精度特性。

現(xiàn)在回想起來,很容易在批評后作出針對一個單一數(shù)據(jù)點的粗俗的過度泛化。更有甚者,后續(xù)文章提及SVD是一個“復雜”的算法,不值得一試,因為它限制了擴大更多的特征的能力。顯然,Anand的學生沒有贏得Netflix Prize,而且他們現(xiàn)在可能意識到SVD在獲獎作品中發(fā)揮著重要的作用。

事實上,許多團隊后來顯示,添加來自IMDB的內容特征等等到一個優(yōu)化算法上幾乎沒有改善。Gravity team的一些成員,他們是Netflix Prize的最優(yōu)秀的競爭者之一,發(fā)表了一篇詳細的論文,展示了將這些基于內容的特征添加到高度優(yōu)化的協(xié)同過濾矩陣分解的方法沒有任何改善。這篇論文題為“Recommending New Movies: Even a Few RaTIngs Are More Valuable Than Metadata”。

為了公平起見,論文的標題也是一個過度泛化?;趦热莸奶卣鳎ɑ蛞话愕牟煌卣鳎┰谠S多情況下可以提高精確度。但是,你明白我的意思:更多的數(shù)據(jù)并不總是有幫助的。

更好的數(shù)據(jù)!=更多的數(shù)據(jù)

在我看來,重要的是要指出,更好的數(shù)據(jù)始終更好。對此沒有反對意見。所以任何你能夠直接針對你的數(shù)據(jù)進行“改善”的努力始終是一項很好的投資。問題是,更好的數(shù)據(jù)并不意味著更多的數(shù)據(jù)。事實上,有時這可能意味著少!

想想數(shù)據(jù)清理或異常值去除,就當是我的觀點一個微不足道的說明。但是,還有許多其他的更微妙的例子。例如,我已經看到人們投入大量的精力到Matrix FactorizaTIon,而真相是,他們可能通過采樣數(shù)據(jù)以及得到非常相似的結果獲得認可。事實上,做某種形式的智能人口抽樣的正確的方式(例如使用分層抽樣)可以讓你得到比使用整個未過濾得的數(shù)據(jù)集更好的結果。

科學方法的終結?

當然,每當有一個關于可能的范式的變化激烈的爭論,就會有像Malcolm Gladwell 和 Chris Anderson這樣的人以此謀生甚至未曾認真思考(不要誤會我的意思,我是他們倆的粉絲,我讀過他們的很多書)。在這種情況下,Anderson挑選了Norvig的一些評論,并錯誤地在一篇文章中引用,該文章的標題為:“The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”。

這篇文章闡述了幾個例子,它們講的是豐富的數(shù)據(jù)如何幫助人們和企業(yè)決策甚至無需理解數(shù)據(jù)本身的含義。正如Norvig在他的辯駁中自己指出的問題,Anderson有幾個觀點是正確的,但是很難實現(xiàn)。而且結果是一組虛假陳述,從標題開始:海量數(shù)據(jù)并未淘汰科學方法。我認為這恰恰相反。

數(shù)據(jù)沒有合理的方法=噪音

所以,我是在試圖制造大數(shù)據(jù)革命只是炒作的言論嗎?不可能。有更多的數(shù)據(jù),無論是更多的例子樣本或更多的特征,都是一種幸事。數(shù)據(jù)的可用性使得更多更好的見解和應用程序成為可能。更多的數(shù)據(jù)的確帶來了更好的方法。更重要的是,它需要更好的方法。

綜上所述,我們應該不理會過分簡單的意見,它們所宣揚的是理論或者模型的無用性,或者數(shù)據(jù)在其他方面的成功的可能性。盡可能多的數(shù)據(jù)是必要的,所以就需要好的模型和理論來解釋它們。但是,總的來說,我們需要的是好的方法,來幫助我們理解如何解釋數(shù)據(jù),模型,以及兩者的局限性,這都是為了得到最好的輸出。

換句話說,數(shù)據(jù)固然重要,但若沒有一個合理的的方法,數(shù)據(jù)將會成為噪音。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關鍵字: 驅動電源

在工業(yè)自動化蓬勃發(fā)展的當下,工業(yè)電機作為核心動力設備,其驅動電源的性能直接關系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動勢抑制與過流保護是驅動電源設計中至關重要的兩個環(huán)節(jié),集成化方案的設計成為提升電機驅動性能的關鍵。

關鍵字: 工業(yè)電機 驅動電源

LED 驅動電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個照明設備的使用壽命。然而,在實際應用中,LED 驅動電源易損壞的問題卻十分常見,不僅增加了維護成本,還影響了用戶體驗。要解決這一問題,需從設計、生...

關鍵字: 驅動電源 照明系統(tǒng) 散熱

根據(jù)LED驅動電源的公式,電感內電流波動大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關鍵字: LED 設計 驅動電源

電動汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產業(yè)的重要發(fā)展方向。電動汽車的核心技術之一是電機驅動控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機驅動系統(tǒng)中的關鍵元件,其性能直接影響到電動汽車的動力性能和...

關鍵字: 電動汽車 新能源 驅動電源

在現(xiàn)代城市建設中,街道及停車場照明作為基礎設施的重要組成部分,其質量和效率直接關系到城市的公共安全、居民生活質量和能源利用效率。隨著科技的進步,高亮度白光發(fā)光二極管(LED)因其獨特的優(yōu)勢逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關鍵字: 發(fā)光二極管 驅動電源 LED

LED通用照明設計工程師會遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關鍵字: LED 驅動電源 功率因數(shù)校正

在LED照明技術日益普及的今天,LED驅動電源的電磁干擾(EMI)問題成為了一個不可忽視的挑戰(zhàn)。電磁干擾不僅會影響LED燈具的正常工作,還可能對周圍電子設備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關鍵字: LED照明技術 電磁干擾 驅動電源

開關電源具有效率高的特性,而且開關電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機重量也有所下降,所以,現(xiàn)在的LED驅動電源

關鍵字: LED 驅動電源 開關電源

LED驅動電源是把電源供應轉換為特定的電壓電流以驅動LED發(fā)光的電壓轉換器,通常情況下:LED驅動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關鍵字: LED 隧道燈 驅動電源
關閉