機器學習關鍵概念有哪些?邊云協(xié)同機器學習面臨什么挑戰(zhàn)?
今天,小編將在這篇文章中為大家?guī)?a href="/tags/機器學習" target="_blank">機器學習的有關報道,通過閱讀這篇文章,大家可以對機器學習具備清晰的認識,主要內(nèi)容如下。
一、機器學習關鍵概念
1.特征選擇與工程
優(yōu)化機器學習模型的重要一步是優(yōu)化。 我們開發(fā)的模型需要以最佳狀態(tài)執(zhí)行,而要確保做到這一點的一種方法是使用最佳功能來訓練模型。
包括每個特征并不總是有用的。 有些特征可能與我們嘗試預測的變量沒有有意義的統(tǒng)計關系,而另一些特征可能彼此緊密相關。 這兩種情況都將噪聲引入訓練階段,這可能會降低模型性能。 特征選擇是選擇最佳特征以包含在訓練階段中的過程。
同樣,原始形式的特征可能無法提供足夠的有意義的數(shù)據(jù)來訓練性能模型。 另外,某些特征根本不能以其原始形式使用,一個很好的例子就是基于日期/時間的功能。 機器學習模型不能使用日期或時間戳作為特征,我們需要首先從日期中導出有意義的特征,才能包含此信息。 我們可以使用整數(shù)形式的日期部分(例如月,日或星期數(shù)),或計算兩個日期之間的差,以提供算法可以理解的模式。 這就是所謂的特征工程。
2.訓練
監(jiān)督式機器學習需要標記數(shù)據(jù),因為算法使用這些示例特征值及其對應的標記來"學習"模式,如果成功,則將使模型能夠準確地預測新的未標記數(shù)據(jù)上的標記。
在機器學習過程中,學習的這一階段稱為訓練階段。 在此階段結(jié)束時,您將擁有一個可用于預測新的未標記數(shù)據(jù)的標簽或值的模型。 訓練階段通常稱為擬合模型。
3.調(diào)參
在以前的文章中,介紹功能選擇時,我曾討論過一個優(yōu)化過程。此過程的另一部分稱為調(diào)參,涉及優(yōu)化算法參數(shù)以找到適合您特定數(shù)據(jù)集的最佳組合。
所有機器學習模型都包含具有多種選項的參數(shù)。 例如,隨機森林模型具有許多可調(diào)參數(shù)。 一個示例是n_estimators,它確定森林中樹木的數(shù)量。 通常,樹的數(shù)量越多,結(jié)果越好,但是在特定點(并且這取決于數(shù)據(jù)集),隨著您添加更多的樹,改進會降低。 為您的數(shù)據(jù)集找到最佳樹數(shù)是一種調(diào)整隨機森林算法參數(shù)的方法。
每種算法都有許多可調(diào)參數(shù),并且每個參數(shù)都有大量潛在的選項。 幸運的是,有自動方法可以找到這些參數(shù)的最佳組合,這就是所謂的超參數(shù)優(yōu)化。
二、邊云協(xié)同機器學習面臨什么挑戰(zhàn)
目前邊云協(xié)同機器學習的經(jīng)典模式是:在云上給定一個數(shù)據(jù)集運行機器學習算法構(gòu)建一個模型,然后將這個模型不作更改應用在多個邊側(cè)的多次推理任務上。這種學習范式稱為封閉學習(也稱孤立學習),因為它并未考慮其他情景學習到的知識和過去學習到的歷史知識。雖然邊云協(xié)同機器學習技術的相關研究和應用都有著顯著的進展,然而在成本、性能、安全方面仍有諸多挑戰(zhàn):數(shù)據(jù)孤島/小樣本/數(shù)據(jù)異構(gòu)/資源受限。
在邊緣云背景下:(1)不同邊側(cè)數(shù)據(jù)分布總是不斷變化,(2)而邊側(cè)標注樣本也往往由于成本較高導致數(shù)量稀少。因而封閉學習需不停標注樣本并重新訓練,這顯然給服務落地帶來巨大挑戰(zhàn)。這種數(shù)據(jù)分布和數(shù)據(jù)量上的挑戰(zhàn)分配稱為數(shù)據(jù)異構(gòu)和小樣本,屬于邊云協(xié)同機器學習的四大挑戰(zhàn)。
當前的封閉學習范式可被用于提供數(shù)據(jù)同構(gòu)和大數(shù)據(jù)的服務,但難以處理數(shù)據(jù)異構(gòu)和小樣本的問題,所以并不合適用于建立通用的機器學習系統(tǒng)。伊利諾伊大學芝加哥分校的劉兵教授也在Frontiers of Computer Science中總結(jié),封閉學習范式一系列局限性的根本在于沒有記憶,這導致它通常需要大量的訓練樣本。
對應的范式改進可以從人類的學習過程中得到啟發(fā)??梢钥吹?,人類之所以能夠越學越聰明,是由于每個人并非自我封閉地學習,而是不斷地積累過去學習的知識,并利用其他人的知識,學習更多知識。借鑒人類這種學習機制,終身學習結(jié)合邊云協(xié)同可以發(fā)展出邊云協(xié)同終身學習。
以上所有內(nèi)容便是小編此次為大家?guī)淼挠嘘P機器學習的所有介紹,如果你想了解更多有關它的內(nèi)容,不妨在我們網(wǎng)站或者百度、google進行探索哦。





