Reading7主要了解機器學習的一些常見概念,主要分類、了解常用算法的原理及其用途。
機器學習(Machine Learning)專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。從實踐的意義上來說,機器學習是一種通過利用數(shù)據(jù),訓練出模型,然后使用模型預測的一種方法。
相比于傳統(tǒng)統(tǒng)計學方法(回歸分析)依賴于假設和先驗性的限制性條件,機器學習可以沒有假設的情況下訓練模型,機器學習的一個計算原理是“find the pattern, apply the pattern”。
根據(jù)數(shù)據(jù)類型的不同,機器學習通用的分類為:監(jiān)督學習(Supervised Learning)、非監(jiān)督學習(Unsuperviese Learning)、深度學習和強化學習(Deep Learning & Reinforcement Learning)。
樣本分類
在機器學習中,訓練模型的算法數(shù)據(jù)集包括:訓練樣本(Trainning Sample),檢驗樣本(validation sample)、驗證樣本(TesTIng Sample)。訓練樣本用于訓練得出模型,檢驗樣本用于修正模型,驗證樣本用于檢驗模型的有效性。
監(jiān)督學習和非監(jiān)督學習的主要區(qū)別在于訓練樣本是否已經(jīng)標定了結(jié)果,。打個簡單的類比來說,監(jiān)督學習就是給你一堆習題,這些習題是有標準答案的,學習(算法)完之后給一張考卷,測驗考試成績。而非監(jiān)督學習,就是給你 一堆數(shù)據(jù),自己去發(fā)現(xiàn)規(guī)律,然后將規(guī)律應用到新的數(shù)據(jù)中,類似于給一堆樂高積木,自己去發(fā)現(xiàn)規(guī)律, 考試就給另外一堆樂高積木,看能否應用之前發(fā)現(xiàn)的規(guī)律。
監(jiān)督學習算法
監(jiān)督學習可應用于回歸和分類問題,回歸和分類的區(qū)別在于輸出的結(jié)果是連續(xù)變量還是分類變量。常見的回歸算法有懲罰性回歸算法,LASSO。常用的分類算法有支持向量機(Support vector machine (SVM))、近鄰算法(K-nearest neighbor (KNN) 、分類回歸樹(ClassificaTIon and Regression Tree (CART)),以及集成算法,集成算法為將多種不同的算法或模型集成到一起,將各個不同模型的結(jié)果放到一起,按模型結(jié)果的最大值作為整個算法的結(jié)果,如Bootstrap AggregaTIng (Bagging)、隨機森林(random forest)
非監(jiān)督學習算法
非監(jiān)督學習用于解決降維和聚類問題,降維是一種減少特征數(shù)量的方法,選出對結(jié)果影響最大的特征。聚類問題就是把含相似特征的數(shù)據(jù)放到一起。
降維主要的算法是主成分分析(PCA)算法,聚類問題的算法包括k-means clustering、分層聚類hierarchical clustering、樹狀圖Dendrograms。
深度學習
第三類深度學習,既可能是監(jiān)督學習,也可能是非監(jiān)督學習。包括神經(jīng)網(wǎng)絡(Neural Networks,NN/ANN)、深度學習(deep learning nets ,DLNs)和強化學習(Reinforcement learning ,RL)
神經(jīng)網(wǎng)絡由輸入層(Input layer)、隱藏層(hidden layers)和輸出層(Output layer)構(gòu)成。深度學習是至少有3個,一般超過20個的隱藏層。





