日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當前位置:首頁 > 芯聞號 > 充電吧
[導讀]自然語言處理是 AI 皇冠上的明珠,而語料預處理是自然語言處理的基礎。 機器能跟人類交流嗎?能像人類一樣理解文本嗎?這是大家對人工智能最初的想象。如今,NLP 技術可以充當人類和機器之間溝通的橋梁。環(huán)

自然語言處理是 AI 皇冠上的明珠,而語料預處理是自然語言處理的基礎。

機器能跟人類交流嗎?能像人類一樣理解文本嗎?這是大家對人工智能最初的想象。如今,NLP 技術可以充當人類和機器之間溝通的橋梁。環(huán)顧周圍的生活,我們隨時可以享受到 NLP 技術帶來的便利,語音識別、機器翻譯、問答系統(tǒng)等等。

這些技術看起來高深莫測,實則都有章可循。當你了解算法的底層原理后,你可能會恍然大悟,嗨!這也不是很難理解嘛。

現(xiàn)在你可以跟隨本文,初探 NLP 技術的地基(語料預處理)是如何構建起來的。在之后的文章中,我們將循序漸進地介紹 NLP 中的特征提取以及最新算法解讀。

語料,顧名思義就是我們平時所說的文本,帶有文字描述性的文本都可以歸類于語料。但這種原始文本無法直接用來訓練模型,需要進行前期預處理。

語料預處理方法主要包括數(shù)據清洗、分詞、詞性標注、去停用詞等。

語料清洗

語料清洗即保留語料中有用的數(shù)據,刪除噪音數(shù)據。常見的清洗方式有:人工去重、對齊、刪除、標注等。

以下面的文本為例。該文本不僅包含中文字符,還包括數(shù)字、英文字符、標點等非常規(guī)字符,這些都是無意義的信息,需要進行清洗。

像上述情況,清洗的方法主要是通過正則表達式??梢跃帉懞喍痰?Python 小腳本來解決,代碼如下:

清洗后的結果:

除了上述需要清洗的形式以外,噪音數(shù)據還包括文本重復、錯誤、缺失、異常等。清洗的方法包括手動處理,或者通過開發(fā)小工具、寫個簡短的小程序,這些方式都可以進行數(shù)據清洗。

分詞

數(shù)據清洗完,就可以進行下一步工序:文本分詞。文本分詞,即將文本分成一個一個的詞語。常用的分詞方法有基于規(guī)則的、基于統(tǒng)計的分詞方法,而統(tǒng)計的樣本內容來自于一些標準的語料庫。

例如這個句子:「小明住在朝陽區(qū)」,我們期望語料庫統(tǒng)計后分詞的結果是:「小明 / 住在 / 朝陽 / 區(qū)」,而不是「小明 / 住在 / 朝 / 陽區(qū)」。那么如何做到這一點呢?

從統(tǒng)計的角度,可以通過條件概率分布來解決。對于一個新的句子,我們可以通過計算各種分詞方法對應的聯(lián)合分布概率,找到最大概率對應的分詞方法,即為最優(yōu)分詞。

到目前為止,研究者已經開發(fā)出許多分詞實用小工具,這些工具使用都很簡單。如果你對分詞沒有特殊需求,你可以直接使用這些分詞工具。

多種分詞工具一覽。

詞性標注

詞性標注指為分詞結果中的每個詞標注正確的詞性,即確定每個詞是名詞、動詞、形容詞或其他詞性的過程。

詞性標注有多個重要作用。

第一,消除歧義。一些詞在不同語境或不同用法時表示不同的意思。比如在這兩個句子「這只狗狗的名字叫開心」和「我今天很開心」中,「開心」就代表了不同的含義。我們可以通過詞性標注進行區(qū)分。

第二,強化基于單詞的特征。還是以上句為例,如果不進行詞性標注,兩個「開心」會被認為是同義詞,詞頻為 2,這會在后續(xù)分析中引入誤差。

此外,詞性標注還具有標準化、詞形還原,以及有效移除停用詞的作用。

常用的詞性標注方法有基于規(guī)則的、基于統(tǒng)計的算法,比如:最大熵詞性標注、HMM 詞性標注等。

接下來,我們看一個詞性標注示例。大家也可以自己嘗試:http://ictclas.nlpir.org/nlpir/

去停用詞

我們人類在接受消息時,都會濾除無效信息,篩選有用信息。對于自然語言來說,去停用詞是一種很明智的操作。

一篇文本,不管是中文還是英文,都有用來起連接作用的連詞、虛詞、語氣詞等無意義的詞,比如「的」、「吧」、「但是」等等。這些詞沒有具體的含義,只是起到銜接句子以及增強語氣的作用。這些詞對文本分析也沒有任何幫助,因此我們需要對分詞后的數(shù)據做停用詞處理。

但是我們應該謹慎決定該去除哪類停用詞。

下圖列出了一些常用的停用詞表,你可以參照需求,選擇要去除的停用詞。

詞頻統(tǒng)計

詞頻統(tǒng)計即統(tǒng)計分詞后文本的詞頻,目的是找出對文本影響最大的詞匯,是文本挖掘的重要手段。統(tǒng)計這些詞出現(xiàn)的頻率可以幫助我們了解文章重點強調了什么,進而方便后續(xù)構建模型。

比如我們可以統(tǒng)計四大名著之一《紅樓夢》中詞頻在前 28 的詞語,結果如下:

從上圖可以看到,《紅樓夢》中哪個人物的篇幅最多,哪個人物曹雪芹更注重。即使我們不是紅學專家,但是從統(tǒng)計詞頻中也可以分析出一些關鍵信息。

「萬丈高樓平地起」,對于自然語言處理這座摩天大廈來說,了解底層的實現(xiàn)原理,或許能夠幫助你更好地理解其構建過程。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內容侵犯您的權益,請及時聯(lián)系本站刪除( 郵箱:macysun@21ic.com )。
換一批
延伸閱讀
關閉