AI版權(quán)戰(zhàn)爭升級:蘋果遭學(xué)術(shù)作者集體訴訟,科技巨頭深陷數(shù)據(jù)合規(guī)困局
掃描二維碼
隨時隨地手機(jī)看文章
當(dāng)?shù)貢r間10月10日,科技媒體Appleinsider的一則報道揭開了AI行業(yè)版權(quán)爭議的新篇章。紐約州立大學(xué)健康科學(xué)大學(xué)的兩位學(xué)術(shù)作者蘇珊娜?馬丁內(nèi)斯-康德與斯蒂芬?麥克尼克,正式對蘋果公司發(fā)起集體訴訟,指控其旗艦AI系統(tǒng)"蘋果智能"(Apple Intelligence)在訓(xùn)練過程中非法使用了包含他們盜版作品的"Books3"數(shù)據(jù)庫。
這場訴訟不僅將蘋果推向輿論風(fēng)口,更再次暴露了全球科技巨頭在AI訓(xùn)練數(shù)據(jù)版權(quán)合規(guī)上的共性難題,一場圍繞"數(shù)據(jù)合法性"的行業(yè)博弈正愈演愈烈。
該案的爭議焦點集中在蘋果AI訓(xùn)練數(shù)據(jù)的來源合法性上。原告在訴訟中明確指出,蘋果未經(jīng)授權(quán)便利用包含其兩部著作《幻覺冠軍》(Champions of Illusion)與《思維的詭計》(Sleights of Mind)盜版內(nèi)容的"Books3"數(shù)據(jù)庫,對"蘋果智能"系統(tǒng)進(jìn)行訓(xùn)練,此舉已構(gòu)成對著作權(quán)的嚴(yán)重侵犯。
而支撐這一指控的核心證據(jù)鏈,指向了蘋果此前公開的語言模型訓(xùn)練信息。訴訟文件顯示,蘋果公司在2024年4月承認(rèn)其在開發(fā)OpenELM語言模型時使用了名為"The Pile"的大型數(shù)據(jù)集,而"The Pile"恰好在當(dāng)時收錄了"Books3"數(shù)據(jù)庫的全部內(nèi)容。
作為業(yè)內(nèi)知名的"影子圖書館","Books3"曾整合了超過18萬本圖書的全文資源,一份公開的數(shù)據(jù)庫清單證實,原告的兩部學(xué)術(shù)著作均在其中。盡管"Books3"因持續(xù)的版權(quán)爭議已于2023年10月被強(qiáng)制移除,但原告強(qiáng)調(diào),蘋果在數(shù)據(jù)庫存續(xù)期間已完成對涉案作品的復(fù)制與訓(xùn)練,侵權(quán)行為已然成立。
從法律層面看,該案面臨雙重挑戰(zhàn)。一方面,蘋果從未公開"蘋果智能"訓(xùn)練所用數(shù)據(jù)的完整文檔列表,原告需舉證證明蘋果確實將涉案書籍用于該系統(tǒng)的訓(xùn)練過程,這一取證過程存在顯著難度;另一方面,美國司法系統(tǒng)在AI版權(quán)案件中尚未形成統(tǒng)一標(biāo)準(zhǔn),此前Midjourney等案例的判決傾向于認(rèn)為,要求AI開發(fā)者對海量訓(xùn)練數(shù)據(jù)進(jìn)行逐一授權(quán)在實操中不具備可行性,這為蘋果的辯護(hù)提供了參考空間。
科技巨頭陷入AI版權(quán)糾紛"重災(zāi)區(qū)"
蘋果并非首個因AI訓(xùn)練數(shù)據(jù)版權(quán)問題陷入訴訟的科技巨頭。事實上,自生成式AI爆發(fā)以來,谷歌、Meta、OpenAI等行業(yè)頭部企業(yè)均已深陷類似糾紛,形成了幾大典型爭議場景。
場景一:學(xué)術(shù)與出版內(nèi)容侵權(quán)爭議
2023年,美國作家協(xié)會聯(lián)合數(shù)千名作者致信谷歌、Meta等公司,指控其未經(jīng)許可使用文學(xué)作品訓(xùn)練AI模型。其中,知名作家尼爾?蓋曼與約翰?格里沙姆更是直接參與訴訟,要求Meta賠償因使用其作品訓(xùn)練LLaMA模型造成的損失。
無獨有偶,2024年初,全球最大學(xué)術(shù)出版商愛思唯爾(Elsevier)對OpenAI提起訴訟,稱其未經(jīng)授權(quán)復(fù)制了數(shù)百萬篇學(xué)術(shù)論文用于GPT系列模型訓(xùn)練,涉嫌侵犯版權(quán)及不正當(dāng)競爭。
場景二:視覺內(nèi)容的版權(quán)博弈
在視覺AI領(lǐng)域,版權(quán)糾紛同樣激烈。2023年,包括 Getty Images 在內(nèi)的多家圖片機(jī)構(gòu)對Stability AI發(fā)起訴訟,指控其使用數(shù)百萬張受版權(quán)保護(hù)的圖片訓(xùn)練Stable Diffusion模型,且生成的圖像存在與原作高度相似的元素。
谷歌也因Imagen模型的訓(xùn)練數(shù)據(jù)問題遭遇藝術(shù)家集體訴訟,原告稱谷歌未經(jīng)許可使用其插畫作品,導(dǎo)致AI生成圖像對傳統(tǒng)創(chuàng)作市場造成沖擊。
場景三:"合理使用"的邊界之爭
Anthropic公司的案例為行業(yè)提供了復(fù)雜的司法參考。在2024年的一場版權(quán)訴訟中,法院雖認(rèn)定Anthropic使用書籍訓(xùn)練Claude模型的行為符合"合理使用"原則,但同時指出其將侵權(quán)書籍長期存儲于中央服務(wù)器的行為構(gòu)成違法。這一判決首次在"使用"與"存儲"層面做出區(qū)分,為后續(xù)案件的法律論證提供了新的切入點。
類似地,微軟在2025年因Copilot模型使用新聞內(nèi)容訓(xùn)練,被多家媒體集團(tuán)起訴,核心爭議點也集中在"合理使用"的界定與商業(yè)利益分配上。
AI數(shù)據(jù)合規(guī)的探索破局
面對持續(xù)升級的版權(quán)訴訟,科技巨頭們開始探索數(shù)據(jù)合規(guī)的解決方案。一方面,部分企業(yè)選擇與內(nèi)容方達(dá)成合作協(xié)議,比如谷歌于2024年與新聞集團(tuán)簽署為期三年的合作協(xié)議,獲得其新聞內(nèi)容的AI訓(xùn)練授權(quán);Meta則與多家出版社建立"數(shù)據(jù)授權(quán)聯(lián)盟",通過付費方式獲取合法的圖書資源。
另一方面,行業(yè)內(nèi)興起"合規(guī)數(shù)據(jù)集"的開發(fā)熱潮,例如亞馬遜推出的"Clean Crawl"數(shù)據(jù)集,僅收錄明確授權(quán)的公開內(nèi)容;谷歌則研發(fā)了"版權(quán)過濾引擎",在訓(xùn)練前對數(shù)據(jù)進(jìn)行版權(quán)風(fēng)險篩查。
從法律框架來看,各國也在加速AI版權(quán)規(guī)則的制定。歐盟《人工智能法案》明確要求AI開發(fā)者披露訓(xùn)練數(shù)據(jù)的來源,并確保數(shù)據(jù)獲取的合法性;美國版權(quán)局則在2025年發(fā)布《AI生成內(nèi)容版權(quán)指南》,試圖厘清AI訓(xùn)練與版權(quán)保護(hù)的邊界。這些舉措雖為行業(yè)提供了方向,但在實操層面,如何平衡創(chuàng)新效率與版權(quán)保護(hù),仍是科技巨頭們需要長期面對的課題。
回到蘋果的這場訴訟,其結(jié)果不僅將影響涉案雙方的權(quán)益,更可能成為AI行業(yè)版權(quán)認(rèn)定的關(guān)鍵判例。當(dāng)AI技術(shù)的發(fā)展越來越依賴海量數(shù)據(jù)的支撐,"數(shù)據(jù)合法"已不再是可選項,而是決定企業(yè)能否持續(xù)發(fā)展的核心競爭力。在這場關(guān)乎創(chuàng)新邊界與版權(quán)保護(hù)的博弈中,科技巨頭們需要拿出更具建設(shè)性的解決方案,而非被動應(yīng)對訴訟。畢竟,真正的AI革命,應(yīng)當(dāng)建立在尊重知識產(chǎn)權(quán)的基礎(chǔ)之上。





