深度學習的發(fā)展，與由此引發(fā)的氣候變化問題

時間：2020-07-10 16:42:01

關鍵字： AI 氣候變化深度學習

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]人腦是一種效率極高的智能來源，但目前的AI還達不到這樣的水平。本月早些時候，OpenAI宣布已經(jīng)構建起有史以來規(guī)模最大的AI模型。這套驚人的模型名為GPT-3，已經(jīng)成為令人印象深刻的偉大技術成就。但

人腦是一種效率極高的智能來源，但目前的AI還達不到這樣的水平。

本月早些時候，OpenAI宣布已經(jīng)構建起有史以來規(guī)模最大的AI模型。這套驚人的模型名為GPT-3，已經(jīng)成為令人印象深刻的偉大技術成就。但在這輝煌的背后，也凸顯出人工智能領域一種令人擔憂的負面趨勢—;—;更可怕的是，主流輿論對此尚未給予足夠的關注。

現(xiàn)代AI模型需要消耗大量電力，而且對電力的需求正以驚人的速度增長。在深度學習時代，構建一流AI模型所需要的計算資源平均每3.4個月翻一番;換句話說，從2012年到2018年間，AI計算資源消耗量增長了30萬倍。而GPT-3，只是這股潮流的最新體現(xiàn)。

總而言之，AI技術帶來的碳排放已經(jīng)不容忽視；如果行業(yè)趨勢繼續(xù)下去，那么情況將很快失去控制。除非我們愿意重新評估并改革當今的AI研究議程，否則人工智能領域很可能在不久的未來成為引發(fā)氣候變化的罪魁禍首。

更大并不一定更好

在當今以深度學習為中心的研究范式當中，人工智能的主要進步主要依賴于模型的規(guī)模化擴展：數(shù)據(jù)集更大、模型更大、計算資源更大。

GPT-3就很好地說明了這種現(xiàn)象。這套模型中包含多達1750億個參數(shù)。為了幫助大家更直觀地理解這個數(shù)字，其前身GPT-2模型(在去年發(fā)布時，同樣創(chuàng)下了體量層面的紀錄)只有15億個參數(shù)。去年的GPT-2在擁有千萬億次算力的設備上訓練了幾十天;相比之下，GPT-3的訓練時長將增長至數(shù)千天。

這種靠“每況愈大”模型推動AI技術進步的問題在于，這類模型的構建與部署都需要消耗大量能源，并由此產(chǎn)生巨量碳排放。

在2019年的一項廣泛研究當中，由Emma Strubell牽頭的一組研究人員估計，訓練一套深度學習模型可能產(chǎn)生高達62萬6155磅的二氧化碳排放量—;—;大約相當于五輛汽車從出廠到報廢的總二氧化碳排放規(guī)模。如果這還不夠直觀，那么每個美國人每年平均產(chǎn)生3萬6156磅二氧化碳排放量。

可以肯定的是，這項估算主要針對那些高度依賴于能源的模型。畢竟結合當前現(xiàn)實，機器學習模型的平均訓練過程絕不至于產(chǎn)生60多萬磅二氧化碳。

同樣值得注意的是，在進行這項分析時，GPT-2仍然是研究領域規(guī)模最大的模型，研究人員也將其視為深度學習模型的極限。但僅僅一年之后，GPT-2就成了“纖細瘦小”的代名詞，下代模型的體量超過其百倍。

為什么機器學習模型會消耗那么多能源?

最重要的原因，就是訓練這些模型的數(shù)據(jù)集本身也在快速增肥。在使用包含30億個單詞的數(shù)據(jù)集進行訓練之后，BERT模型在2018年實現(xiàn)了同類最佳的自然語言處理(NLP)性能。而在利用包含320億個單詞的訓練集完成訓練之后，XLNet又超越了BERT。不久之后，GPT-2開始在包含400億個單詞的數(shù)據(jù)集上接受訓練。最終是我們前面提到的GPT-3，它使用的是一套包含約5000億個單詞的加權數(shù)據(jù)集。

在訓練過程中，神經(jīng)網(wǎng)絡需要為每一條數(shù)據(jù)執(zhí)行一整套冗長的數(shù)學運算(正向傳播與反向傳播)，并以復雜的方式更新模型參數(shù)。因此，數(shù)據(jù)集規(guī)模越大，與之對應的算力與能源需求也在飛速增長。

導致AI模型大量消耗能源的另一個理由，在于模型開發(fā)過程中所需要的大量實驗與調(diào)整。目前，機器學習在很大程度上仍是一個反復實驗試錯的流程。從業(yè)人員通常會在訓練過程中為當前模型構建數(shù)百個版本，并通過不斷嘗試各類神經(jīng)架構與超參數(shù)確定最佳設計方案。

之前提到的2019年論文中還包含一項案例研究，研究人員們選擇了一個體量適中的模型(顯然要比GPT-3這樣的龐然大物小得多)，并對訓練其最終版本所需要的電力、以及生產(chǎn)最終版本所需要的試運行總量進行了統(tǒng)計。

在為期六個月的過程中，研究人員共訓練了該模型的4789個不同版本，折合單GPU運行時長為9998天(超過27年)?？紤]到所有因素，研究人員們估計，該模型的構建過程將產(chǎn)生約7萬8000磅二氧化碳，超過美國成年人兩年的平均二氧化碳排放量。

而到這里，我們討論的還僅僅是機器學習模型的訓練部分。而訓練只能算是模型生命周期的開始;在訓練完成之后，我們還需要在現(xiàn)實環(huán)境中使用這些模型。

在現(xiàn)實環(huán)境中部署并運行AI模型(即推理過程)，所帶來的能源消耗量甚至高于訓練過程。實際上，英偉達公司估計，神經(jīng)網(wǎng)絡全部算力成本中的80%到90%來自推理階段，而非訓練階段。

例如，我們可以考慮自動駕駛汽車中的AI模型。我們需要首先對該神經(jīng)網(wǎng)絡進行訓練，教會它駕駛技巧。在訓練完成并部署至車輛上之后，該模型將持續(xù)不斷地進行推理以實現(xiàn)環(huán)境導航—;—;只要汽車仍在行駛，模型的推理過程就將不間斷地進行。

毋庸置疑，模型中包含的參數(shù)量越大，推理階段所帶來的電力需求就越夸張。

能源使用與碳排放

要探討這個問題，我們先要找到能源使用與碳排放之間的對應關系。那么，該如何準確判斷這種對應關系?

根據(jù)美國環(huán)保署(EPA)公布的數(shù)據(jù)，在美國，一千瓦時電力平均對應0.954磅二氧化碳排放量。這一平均值反映了碳足跡變化以及美國電網(wǎng)當中的不同電力來源(包括可再生能源、核能、天然氣以及煤炭等)的客觀比例。

如上所述，Strubell在分析中采用了美國本土的電力碳排放平均值，以根據(jù)不同AI模型的能源需求計算對應的碳排放量。這個假設已經(jīng)相當合理，因為Amazon Web Services的電力組合就一致符合美國整體的發(fā)電來源結構，而目前的大多數(shù)AI模型都會選擇在公有云端進行訓練。

當然，如果盡可能使用可再生能源產(chǎn)生的電力進行AI模型訓練，其碳足跡必將有所降低。例如，與AWS相比，Google Cloud Platform的電力結構中可再生能源的比例更高(根據(jù)Strubell的論文，AWS的可再生能源占比17%，谷歌方面則占比56%)。

我們也可以再舉個例子，由于所在地區(qū)擁有豐富的清潔水電資源，因此大西洋西北部區(qū)域的硬件設施在訓練模型時所產(chǎn)生的碳排放將低于全美平均水平。值得一提的是，目前各大云服務供應商都在強調(diào)其在碳排放控制方面做出的努力。

但總體來說，Strubell認為美國的整體電力組合仍然具有充分的說服力，可用于大體準確地估算出AI模型的碳足跡。

收益遞減

模型體量與模型性能之間的關系，則能幫助我們了解提升模型規(guī)模到底能夠給AI技術發(fā)展帶來怎樣的幫助。這方面數(shù)據(jù)倒是非常明確：模型體量的持續(xù)增加，最終會導致性能回報急劇下降。

我們用實例來證明這個觀點。ResNet是一套于2015年發(fā)布的知名計算機視覺模型。該模型的改進版本名為ResNeXt，于2017年問世。與ResNet相比，ResNeXt需要的計算資源提升了35%(按總浮點運算量計算)，但精度卻只增長了0.5%。

在艾倫人工智能研究所2019年發(fā)表的論文中，我們可以看到更詳盡的比較數(shù)據(jù)，其中記錄了不同任務、模型與AI子領域的模型規(guī)模收益遞減情況。與GPT-2相比，最新發(fā)布的超大型GPT-3模型也出現(xiàn)了顯著的收益遞減跡象。

如果AI社區(qū)繼續(xù)沿著當前的道路前進，那么研究人員們必然需要花費更多精力構建起越來越大的模型，但由此帶來的性能提升卻越來越小。這意味著成本/收益率將變得愈發(fā)不相稱。

既然收益遞減客觀存在，為什么人們還在不斷推出越來越大的模型呢?一大主要原因，在于AI社區(qū)當下仍過于關注能在性能基準測試中創(chuàng)下新高的“最新”紀錄。在眾所周知的基準測試中拿下新頂點的模型(即使僅提升一個百分點)，也能贏得研究人員們的一致認可與好評。

正如加州大學洛杉磯分校(UCLA)Guy Van den Broeck教授所言，“我認為比較準確的比喻，就是某個盛產(chǎn)石油的國家能夠建造一座很高的摩天大樓。在摩天大樓的建造過程中，當然能夠幫國家積累下「最先進的技術」。但這一切……無法帶來任何科學意義上的進步?！?/p>

目前，AI研究議程領域這種“越大越好”的偏執(zhí)精神很可能在未來幾年給自然環(huán)境造成重大破壞。這就要求我們在深思熟慮之后進行大膽變革，將人工智能重新引導到持續(xù)性更強、生產(chǎn)力水平更高的正確軌道上。

展望未來

首先，每一位AI從業(yè)者應該盡快將“縮短周期”作為研究目標，借此降低技術發(fā)展對環(huán)境造成的影響。

而最重要的第一步，就是增強AI模型碳排放問題的透明度與量化考核。當AI研究人員發(fā)布新模型的研究結果時，除了性能與精度兩項核心指標之外，還應該附上模型開發(fā)過程中的總體能源數(shù)據(jù)。

經(jīng)過認真分析，艾倫人工智能研究所的團隊提出將浮點運算作為研究人員們最通用也最準確的能效衡量標準。另一支小組也創(chuàng)建出一款機器學習碳排放計算器，可幫助從業(yè)者們借此估算當前模型的碳足跡(其中涵蓋硬件、云服務供應商以及地理區(qū)域等諸多因素)。

遵循這些思路，研究人員們還需要在模型訓練過程中，將能源成本與性能收益之間的關系作為不能回避的重要度量。明確量化這項指標，將促使研究人員們重要收益遞減問題，進而在資源分配上做出更明智、更平衡的決策。

希望隨著可持續(xù)AI實踐的普及，技術社區(qū)能夠在評估AI研究時著重考慮這些效率指標，并把這些指標的重要性提高到精度等傳統(tǒng)性能指標的水平，最終使其在論文發(fā)表、演講分享以及學術成果等領域發(fā)揮更重要的作用。

當然，其他一些方法也有望在短期之內(nèi)幫助AI模型減少碳排放：使用更高效的超參數(shù)搜索方法、減少訓練過程中不必要的實驗次數(shù)、采用更節(jié)能的硬件等等。

但單靠這些補救性的措施，不足以徹底解決問題。人工智能領域需要在根本上做出長期轉變。

我們需要退后一步，承認單純建立越來越龐大的神經(jīng)網(wǎng)絡并不是通往廣義智能的正確路徑。從第一原理出發(fā)，我們必須逼迫自己去發(fā)現(xiàn)更優(yōu)雅、更高效的方法，對機器中的智能進行建模。我們與氣候變化的斗爭，甚至是整顆藍色星球的未來，可能也都將維系于此。

引用AI界傳奇人物、深度學習教父Geoff Hinton的名言，“未來可能掌握的某些研究生手里，因為他們對我所說的一切深表懷疑……他們可能會徹底拋棄我的觀點，從零開始再次探索?！?/p>

AI社區(qū)必須敢于建立人工智能的新范式，這些范式既不需要指數(shù)級增長的數(shù)據(jù)集、也不需要恐怖的電力消耗。小樣本學習等新興研究領域，也許會成為我們走向光明未來的新道路。

作為最初的智能來源，人腦也將給我們帶來重要啟發(fā)。與目前的深度學習方法相比，我們的大腦非常高效。人腦僅幾磅重，運行功率約20瓦—;—;只夠讓低功率燈泡亮起昏暗的光。然而，它們卻也代表著宇宙中當前已知的最強大的智能形態(tài)。

AI研究人員Siva Reddy也不禁感嘆，“人腦只需要極低的功耗，就能達成令人驚奇的表現(xiàn)。問題在于，我們?nèi)绾尾拍苤圃斐鲞@樣的機器?！?/p>

深度學習的發(fā)展，與由此引發(fā)的氣候變化問題

深度學習的發(fā)展，與由此引發(fā)的氣候變化問題