AI倫理還有很長的路要走，我們應該更多關于數(shù)據(jù)隱私和道德的討論

時間：2020-06-08 18:39:01

關鍵字：人工智能數(shù)據(jù) 倫理學

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀] 2018年可以認為是人工智能（AI）大爆發(fā)的一年。你只需看看那些標語中帶AI一詞數(shù)量，宣稱自己 AI 創(chuàng)業(yè)公司的數(shù)量，大公司提到 AI 戰(zhàn)略的次數(shù)，以及技術(shù)頂會中爆滿的 AI 專場，你就知道人工

2018年可以認為是人工智能（AI）大爆發(fā)的一年。你只需看看那些標語中帶AI一詞數(shù)量，宣稱自己 AI 創(chuàng)業(yè)公司的數(shù)量，大公司提到 AI 戰(zhàn)略的次數(shù)，以及技術(shù)頂會中爆滿的 AI 專場，你就知道人工智能已經(jīng)無處不在。但是，即使是這樣，AI 也只是稱為了一個流行語而已，但實際上 AI 的本質(zhì)是什么，我相信很多人都不知道。

圖 1：這些年來大肆宣傳的概念

回顧這些年宣傳過的各種概念，多少人曾為之瘋狂。但是浪潮退去，裸泳者將會即刻出現(xiàn)。我們不應該跟隨風潮進行概念炒作，相反的，我們應該反思，這些技術(shù)都解決了什么問題？

對數(shù)據(jù)科學行業(yè)來說，也是如此。讓我們回顧一下單單“數(shù)據(jù)科學”一詞在谷歌搜索中的趨勢：

圖 2：自2013年12月以來對“數(shù)據(jù)科學”術(shù)語的搜索（來源：谷歌趨勢）

可以看到，數(shù)據(jù)科學的趨勢一直在穩(wěn)步上升。接下來，讓我們回顧2018曾發(fā)生的事情，再來看看2019年的熱門話題。

2018 回顧

去年的這個時候，我也發(fā)表一篇關于2018年數(shù)據(jù)科學趨勢展望的文章。在那篇文章中，我主要提到的關鍵詞有：工程自動化，模型可解釋性和公平性，數(shù)據(jù)科學應用商業(yè)化，以及特征工程工具的構(gòu)建和改進。

自動化：一般來說，數(shù)據(jù)科學家的工作就是使他們的工作自動化，這句話可能有點繞口，但你認真思考以下，數(shù)據(jù)科學出現(xiàn)的意義就是解決大規(guī)模數(shù)據(jù)情況的分析和挖掘。而我們使用的各種模型，都是致力于提供某種較為通用的方案讓機器能夠自動從數(shù)據(jù)中學習知識。并且在過去的一年里，很多大公司開源了自己的模型算法，以及整個機器學習流水線的自動化，甚至連機器學習算法的建模都能自動化，參見 Google/Amazon/阿里/騰訊等一大批公司提出的 AutoML。

商業(yè)化：正是有了這么多可用的開源工具，數(shù)據(jù)科學領域內(nèi)的商業(yè)化競爭也越來越殘酷。不過幸運的是，數(shù)據(jù)科學是一種橫向?qū)W科，你可以只對模型進行一些微調(diào)，就可以在農(nóng)業(yè)應用和醫(yī)療場景中使用相同的算法。因此，你也會發(fā)現(xiàn)，在2018年有很多宣稱自己是 AI 公司的，如果在某個垂直方向上失敗了，他們會迅速適應另一個領域。

同樣也是由于這么多的開源工具，有一些公司直接對開源工具進行某種適配和修改，然后賣給其它公司。這也是2018里常常出現(xiàn)的一個現(xiàn)象。

可解釋性和公平性：2018年這個領域也取得了巨大進展?，F(xiàn)在有很多開源工具幫助解釋機器學習模型學習到的知識，例如 Python 中會用到的 SHAP。此外，還有很多書籍也在探討這個問題，其中比較著名就有：Christoph Molnar 發(fā)表的《可解釋的機器學習模型》一書（獲取本書資源，請在本公眾號發(fā)消息：可解釋，即可獲取全書）。除此之外，Google 提供的 “What-If” 工具系列，也可以幫助初學者降低學習門檻，了解機器學習復雜模型的運行原理。感謝 Google。

特征工程：雖然深度學習全面席卷整個行業(yè)，但是特征工程仍然是數(shù)據(jù)科學行業(yè)提升模型性能的主要秘訣之一。經(jīng)常參加比賽的同學就會知道，在各類比賽的獲勝方案中，沒有哪個是單單靠模型取勝的，這些參賽者都花了很多時間在特征工程上，即便是深度模型也是如此。因此，特征工程仍舊是一個大話題，但是在2018年，也有越來越多的通用特征處理工具和算法提了出來。

最后，根據(jù) Stack Overflow 的統(tǒng)計，Python 已經(jīng)成為連續(xù)兩年增長最快的編程語言和最受歡迎的語言。按照這個速度，Python 應該會在不久之后成為最常用的編程語言。

2019 展望

2018年的飛速發(fā)展讓我們能更廣泛更輕松的應用數(shù)據(jù)科學，在2019年，數(shù)據(jù)科學家們關注的焦點是：

1. 如何最大限度地減少數(shù)據(jù)科學家花在數(shù)據(jù)清理和特征工程上的時間？

2. 如何解決機器學習模型的偏見問題？

3. 機器學習模型真的都可信嗎？

拋開這些難以回答的問題，數(shù)據(jù)科學還有很多現(xiàn)實的問題需要解決。

強化學習在2018年可謂是如坐過山車一般，從火爆到寒冬。但是今年強化學習的春天可能要到來了，比如應用強化學習玩 Dota2 就是一個很好的例子。但是由于強化學習對于設備計算能力的要求較高，想要普及強化學習仍舊有很長的路要走。但是，無論如何，強化學習是數(shù)據(jù)科學領域目前學習方式最擬人化的模型，如果強化學習一旦廣泛應用，將會是革命性的進展。

如果你對強化學習感興趣，可以關注由 OpenAI 開發(fā)并開源的 Gym，里面有很多游戲示例可以練手。

隱私問題：2018年 facebook 由于隱私被起訴，國內(nèi)也有很多公司相繼爆出隱私問題。國際上，歐盟于2018年5月25日起，將要求數(shù)據(jù)科學履行他們制定的通用數(shù)據(jù)保護法規(guī)（GDPR），這些對全球的數(shù)據(jù)科學公司來說，都會有極大的影響。

目前，GDPR 主要關注以下兩個方面：

- 數(shù)據(jù)隱私：任何公司如果未經(jīng)用戶授權(quán)，擅自使用或者超過用戶的授權(quán)范圍使用用戶數(shù)據(jù)，會收到歐盟的巨額罰款。這帶來的問題是：以后想要獲取用戶數(shù)據(jù)，是否會越來越困難，或者，如果我們使用匿名數(shù)據(jù)，那么這些匿名數(shù)據(jù)是否真的可信？

- 向用戶解釋：對于任何完全自動化的算法形成的決策，平臺必須要能夠向用戶解釋任何發(fā)生在用戶身上的事情。在完全自動化的決策必須是可解釋的。歐盟沒有對“可解釋”下更多明確的定義，但是無論如何，迄今為止有很多機器學習模型仍舊還是不容易被解釋的，尤其是某些先進的高級模型。那么是否意味著：一旦我們使用前沿的高級模型，是否就代表著有巨大的罰款等著我們？

值得信賴的人工智能至少要滿足這兩個條件：

（1）它應該尊重人的基本權(quán)利，社會的法規(guī)、原則和價值觀，并且是道德的；

（2）在技術(shù)上它應該強大可靠，避免對用戶造成意外傷害

隨著人工智能對社會的影響越來越大，我們有權(quán)要求這些 AI 減少偏見。幸運的是，在國外我們已經(jīng)看到了很多公司和機構(gòu)在努力解決這個問題，比如歐盟提出了AI道德草案，谷歌重申了AI應用的原則。AI 倫理學還有很長的路要走，希望在國內(nèi)我們也能有更多關于數(shù)據(jù)隱私和道德的討論。

圖 3：歐盟 AI 道德草案

基于云的解決方案：隨著人工智能算法變得越來越復雜，數(shù)據(jù)量越來越大，對計算機的要求越來越高。現(xiàn)在已經(jīng)很少有大公司用個人電腦來進行數(shù)據(jù)科學的研究。國內(nèi)如騰訊和阿里都相繼提出云上的機器學習解決方案，在未來，這一定是數(shù)據(jù)科學開發(fā)、運行和部署的基本趨勢。

行業(yè)細分：現(xiàn)在如果你搜索一個傳統(tǒng)行業(yè)的工程師，你看到的職位名稱將會非常細化，比如機械工程師嗎、航天工程師、軟件工程師等等。

數(shù)據(jù)科學也是如此。2018年很多公司會將數(shù)據(jù)科學職位定義為“數(shù)據(jù)科學家”，但是在未來，隨著行業(yè)細分專業(yè)細分，數(shù)據(jù)科學家必定也會細分下去。國外 Netflix 公司已經(jīng)開了一個好頭，下圖中展示了 Netflix 的九個數(shù)據(jù)科學家角色：

圖 4： Netflix 的數(shù)據(jù)科學家職位

這給我們的啟示是：深耕一個領域。在數(shù)據(jù)科學剛開始的時候，肯定不存在許多專業(yè)化的細分領域。但隨著數(shù)據(jù)科學的發(fā)展，不同領域的細分越來越明顯，今年能夠明顯看到的就是 NLP 內(nèi)部也對 NLG / NER 等工程師進行了細分。所以如果你還沒有確定自己的方向的話，是時候好好思考一下了。

2019年仍將是數(shù)據(jù)科學高速發(fā)展的一年，它可能不如2018瘋狂，但讓我們更理性的對待數(shù)據(jù)科學本身就是一個好事。請記住，時間是你最大的資產(chǎn)。你浪費的每一秒都是你錯失的機會。行動起來，為數(shù)據(jù)科學更理性的明天做好準備。