當前位置：首頁 > 芯聞號 > 充電吧

NLP小白入門篇：莫愁前路，一文讀懂語料預處理

時間：2020-08-24 15:12:01

關鍵字： AI 人工智能數(shù)據

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]自然語言處理是 AI 皇冠上的明珠，而語料預處理是自然語言處理的基礎。機器能跟人類交流嗎？能像人類一樣理解文本嗎？這是大家對人工智能最初的想象。如今，NLP 技術可以充當人類和機器之間溝通的橋梁。環(huán)

自然語言處理是 AI 皇冠上的明珠，而語料預處理是自然語言處理的基礎。

機器能跟人類交流嗎？能像人類一樣理解文本嗎？這是大家對人工智能最初的想象。如今，NLP 技術可以充當人類和機器之間溝通的橋梁。環(huán)顧周圍的生活，我們隨時可以享受到 NLP 技術帶來的便利，語音識別、機器翻譯、問答系統(tǒng)等等。

這些技術看起來高深莫測，實則都有章可循。當你了解算法的底層原理后，你可能會恍然大悟，嗨！這也不是很難理解嘛。

現(xiàn)在你可以跟隨本文，初探 NLP 技術的地基（語料預處理）是如何構建起來的。在之后的文章中，我們將循序漸進地介紹 NLP 中的特征提取以及最新算法解讀。

語料，顧名思義就是我們平時所說的文本，帶有文字描述性的文本都可以歸類于語料。但這種原始文本無法直接用來訓練模型，需要進行前期預處理。

語料預處理方法主要包括數(shù)據清洗、分詞、詞性標注、去停用詞等。

語料清洗

語料清洗即保留語料中有用的數(shù)據，刪除噪音數(shù)據。常見的清洗方式有：人工去重、對齊、刪除、標注等。

以下面的文本為例。該文本不僅包含中文字符，還包括數(shù)字、英文字符、標點等非常規(guī)字符，這些都是無意義的信息，需要進行清洗。

像上述情況，清洗的方法主要是通過正則表達式?？梢跃帉懞喍痰?Python 小腳本來解決，代碼如下：

清洗后的結果：

除了上述需要清洗的形式以外，噪音數(shù)據還包括文本重復、錯誤、缺失、異常等。清洗的方法包括手動處理，或者通過開發(fā)小工具、寫個簡短的小程序，這些方式都可以進行數(shù)據清洗。

分詞

數(shù)據清洗完，就可以進行下一步工序：文本分詞。文本分詞，即將文本分成一個一個的詞語。常用的分詞方法有基于規(guī)則的、基于統(tǒng)計的分詞方法，而統(tǒng)計的樣本內容來自于一些標準的語料庫。

例如這個句子：「小明住在朝陽區(qū)」，我們期望語料庫統(tǒng)計后分詞的結果是：「小明 / 住在 / 朝陽 / 區(qū)」，而不是「小明 / 住在 / 朝 / 陽區(qū)」。那么如何做到這一點呢？

從統(tǒng)計的角度，可以通過條件概率分布來解決。對于一個新的句子，我們可以通過計算各種分詞方法對應的聯(lián)合分布概率，找到最大概率對應的分詞方法，即為最優(yōu)分詞。

到目前為止，研究者已經開發(fā)出許多分詞實用小工具，這些工具使用都很簡單。如果你對分詞沒有特殊需求，你可以直接使用這些分詞工具。

多種分詞工具一覽。

詞性標注

詞性標注指為分詞結果中的每個詞標注正確的詞性，即確定每個詞是名詞、動詞、形容詞或其他詞性的過程。

詞性標注有多個重要作用。

第一，消除歧義。一些詞在不同語境或不同用法時表示不同的意思。比如在這兩個句子「這只狗狗的名字叫開心」和「我今天很開心」中，「開心」就代表了不同的含義。我們可以通過詞性標注進行區(qū)分。

第二，強化基于單詞的特征。還是以上句為例，如果不進行詞性標注，兩個「開心」會被認為是同義詞，詞頻為 2，這會在后續(xù)分析中引入誤差。

此外，詞性標注還具有標準化、詞形還原，以及有效移除停用詞的作用。

常用的詞性標注方法有基于規(guī)則的、基于統(tǒng)計的算法，比如：最大熵詞性標注、HMM 詞性標注等。

接下來，我們看一個詞性標注示例。大家也可以自己嘗試：http://ictclas.nlpir.org/nlpir/

去停用詞

我們人類在接受消息時，都會濾除無效信息，篩選有用信息。對于自然語言來說，去停用詞是一種很明智的操作。

一篇文本，不管是中文還是英文，都有用來起連接作用的連詞、虛詞、語氣詞等無意義的詞，比如「的」、「吧」、「但是」等等。這些詞沒有具體的含義，只是起到銜接句子以及增強語氣的作用。這些詞對文本分析也沒有任何幫助，因此我們需要對分詞后的數(shù)據做停用詞處理。

但是我們應該謹慎決定該去除哪類停用詞。

下圖列出了一些常用的停用詞表，你可以參照需求，選擇要去除的停用詞。

詞頻統(tǒng)計

詞頻統(tǒng)計即統(tǒng)計分詞后文本的詞頻，目的是找出對文本影響最大的詞匯，是文本挖掘的重要手段。統(tǒng)計這些詞出現(xiàn)的頻率可以幫助我們了解文章重點強調了什么，進而方便后續(xù)構建模型。

比如我們可以統(tǒng)計四大名著之一《紅樓夢》中詞頻在前 28 的詞語，結果如下：

從上圖可以看到，《紅樓夢》中哪個人物的篇幅最多，哪個人物曹雪芹更注重。即使我們不是紅學專家，但是從統(tǒng)計詞頻中也可以分析出一些關鍵信息。

「萬丈高樓平地起」，對于自然語言處理這座摩天大廈來說，了解底層的實現(xiàn)原理，或許能夠幫助你更好地理解其構建過程。

本站聲明：本文章由作者或相關機構授權發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者，如若文章內容侵犯您的權益，請及時聯(lián)系本站刪除（郵箱：macysun@21ic.com ）。

換一批