Reading7主要了解機器學習的一些常見概念,主要分類、了解常用算法的原理及其用途。
機器學習(Machine Learning)專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。從實踐的意義上來說,機器學習是一種通過利用數據,訓練出模型,然后使用模型預測的一種方法。
相比于傳統(tǒng)統(tǒng)計學方法(回歸分析)依賴于假設和先驗性的限制性條件,機器學習可以沒有假設的情況下訓練模型,機器學習的一個計算原理是“find the pattern, apply the pattern”。
根據數據類型的不同,機器學習通用的分類為:監(jiān)督學習(Supervised Learning)、非監(jiān)督學習(Unsuperviese Learning)、深度學習和強化學習(Deep Learning & Reinforcement Learning)。
樣本分類
在機器學習中,訓練模型的算法數據集包括:訓練樣本(Trainning Sample),檢驗樣本(validation sample)、驗證樣本(TesTIng Sample)。訓練樣本用于訓練得出模型,檢驗樣本用于修正模型,驗證樣本用于檢驗模型的有效性。
監(jiān)督學習和非監(jiān)督學習的主要區(qū)別在于訓練樣本是否已經標定了結果,。打個簡單的類比來說,監(jiān)督學習就是給你一堆習題,這些習題是有標準答案的,學習(算法)完之后給一張考卷,測驗考試成績。而非監(jiān)督學習,就是給你 一堆數據,自己去發(fā)現規(guī)律,然后將規(guī)律應用到新的數據中,類似于給一堆樂高積木,自己去發(fā)現規(guī)律, 考試就給另外一堆樂高積木,看能否應用之前發(fā)現的規(guī)律。
監(jiān)督學習算法
監(jiān)督學習可應用于回歸和分類問題,回歸和分類的區(qū)別在于輸出的結果是連續(xù)變量還是分類變量。常見的回歸算法有懲罰性回歸算法,LASSO。常用的分類算法有支持向量機(Support vector machine (SVM))、近鄰算法(K-nearest neighbor (KNN) 、分類回歸樹(ClassificaTIon and Regression Tree (CART)),以及集成算法,集成算法為將多種不同的算法或模型集成到一起,將各個不同模型的結果放到一起,按模型結果的最大值作為整個算法的結果,如Bootstrap AggregaTIng (Bagging)、隨機森林(random forest)
非監(jiān)督學習算法
非監(jiān)督學習用于解決降維和聚類問題,降維是一種減少特征數量的方法,選出對結果影響最大的特征。聚類問題就是把含相似特征的數據放到一起。
降維主要的算法是主成分分析(PCA)算法,聚類問題的算法包括k-means clustering、分層聚類hierarchical clustering、樹狀圖Dendrograms。
深度學習
第三類深度學習,既可能是監(jiān)督學習,也可能是非監(jiān)督學習。包括神經網絡(Neural Networks,NN/ANN)、深度學習(deep learning nets ,DLNs)和強化學習(Reinforcement learning ,RL)
神經網絡由輸入層(Input layer)、隱藏層(hidden layers)和輸出層(Output layer)構成。深度學習是至少有3個,一般超過20個的隱藏層。





