維基百科與多家AI巨頭達成新合作 以API替代網(wǎng)絡(luò)爬蟲規(guī)范數(shù)據(jù)使用
正值成立 25 周年之際,維基百科母公司維基媒體基金會(Wikimedia)于當(dāng)?shù)貢r間 1 月 15 日通過博客宣布,已與亞馬遜、Meta、微軟、Mistral AI 及 Perplexity 等多家科技企業(yè)達成新合作。
此次合作將允許這些公司通過維基媒體企業(yè)版(Wikimedia Enterprise)合規(guī)獲取維基百科的應(yīng)用程序接口(API)數(shù)據(jù),用于大型語言模型(LLMs)的開發(fā)與訓(xùn)練,替代此前普遍存在的網(wǎng)絡(luò)爬蟲抓取方式。
維基媒體方面透露,上述合作均在過去一年內(nèi)正式敲定,但此前未對外公開。這些企業(yè)將通過付費方式使用維基百科的海量數(shù)據(jù),將這一 "人類協(xié)作治理的知識體系" 大規(guī)模整合到自身平臺中。
值得一提的是,谷歌早在 2022 年就成為維基媒體企業(yè)版的首批合作伙伴,此次新增合作后,該項目的合作陣營已擴展至 Ecosia、Pleias、ProRata 等多家機構(gòu)。
維基媒體基金會發(fā)言人在接受 CNBC 采訪時表示:"維基百科的知識資源為生成式 AI 聊天機器人、搜索引擎、語音助手等產(chǎn)品提供了核心支撐。對于 AI 及科技企業(yè)而言,其長遠發(fā)展離不開對維基百科這類知識項目的培育,因為這些平臺構(gòu)建了它們賴以生存的人類知識基礎(chǔ)。"
隨著 AI 行業(yè)的爆發(fā)式增長,數(shù)據(jù)使用權(quán)問題日益受到關(guān)注,維基百科、Reddit等平臺上的人類生成內(nèi)容被 AI 企業(yè)使用所引發(fā)的法律爭議與倫理問題也持續(xù)升溫。
去年,埃隆?馬斯克就推出了 AI 驅(qū)動的維基百科競品 "Grokipedia",該平臺以 xAI 旗下大語言模型 Grok 命名,所有條目均由 AI 生成,馬斯克宣稱其更具客觀性、"反對 woke 思潮"。
此次維基媒體與科技巨頭的合作,不僅為 AI 企業(yè)獲取合規(guī)知識數(shù)據(jù)提供了新路徑,也為內(nèi)容平臺與 AI 行業(yè)的良性互動探索了模式,有望在保護知識創(chuàng)作者權(quán)益與推動技術(shù)創(chuàng)新之間找到平衡點。





