幻覺成了AI的“癌癥”，連OpenAI也治不了

時間：2025-09-10 10:47:44

關(guān)鍵字：幻覺 AI OpenAI AI聊天機(jī)器人

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀]學(xué)生參加考試，當(dāng)他不知道題目的答案時，可能會猜測。實際上，AI聊天機(jī)器人也一樣。AI給出的答案可能看起來正確，實際卻是完全錯誤的，這就是所謂的“幻覺”。

學(xué)生參加考試，當(dāng)他不知道題目的答案時，可能會猜測。實際上，AI聊天機(jī)器人也一樣。AI給出的答案可能看起來正確，實際卻是完全錯誤的，這就是所謂的“幻覺”。

從本質(zhì)上講，AI大語言模型生成的回復(fù)偏離事實或者不符合邏輯，就會產(chǎn)生幻覺。在訓(xùn)練時模型難免存在數(shù)據(jù)空白，但它會用看似合理、實則錯誤的細(xì)節(jié)填補(bǔ)、掩飾。

AI并非有意欺騙人類，而是人類利用龐大數(shù)據(jù)進(jìn)行訓(xùn)練時存在缺陷。AI預(yù)測序列的下一個單詞或者詞匯時，并未真正理解含義，所以導(dǎo)致錯誤。

雖然近年來AI技術(shù)有所進(jìn)步，但即便是在OpenAI的GPT-5模型中，幻覺依然存在，而且還很嚴(yán)重。

AI幻覺出現(xiàn)與獎勵出錯有關(guān)

為什么會出現(xiàn)幻覺？一些專家認(rèn)為，主要是訓(xùn)練數(shù)據(jù)和算法存在局限性。OpenAI開發(fā)的AI模型實際上就是模式匹配機(jī)器，它擅長模仿，但是當(dāng)數(shù)據(jù)不完整或者含糊不清時就容易出錯。

OpenAI最近發(fā)表論文，認(rèn)為造成幻覺的原因是訓(xùn)練時方法錯誤。當(dāng)模型輸出充滿自信的結(jié)果時會獲得“獎勵”，哪怕給出的結(jié)果是猜測的，也會得到獎勵，這就誘導(dǎo)AI輸出過度自信但存在錯誤的信息。

也就是說，在回復(fù)時AI喜歡“假裝”自己能準(zhǔn)確回答問題，不承認(rèn)自己存在不確定性，這一問題屬于隱性結(jié)構(gòu)性缺陷，暫時找不到解決方法。

一些專家斷言，當(dāng)前的訓(xùn)練方法鼓勵A(yù)I猜測，導(dǎo)致AI過度自信，不承認(rèn)自己無知，結(jié)果導(dǎo)致“幻覺”問題有可能越來越嚴(yán)重。

就連OpenAI也不得不承認(rèn)，幻覺可能是永遠(yuǎn)無法解決的問題。所以O(shè)penAI認(rèn)為，不應(yīng)該鼓勵A(yù)I猜測，而應(yīng)該鼓勵A(yù)I承認(rèn)不確定性。

然而，另一個問題隨之到來。Claude模型鼓勵A(yù)I承認(rèn)不確定性，對于不準(zhǔn)確的回復(fù)，它總是避免給出定論。但如此一來，必然會導(dǎo)致Claude在回復(fù)時拒絕率居高不下，進(jìn)而導(dǎo)致用戶不滿，最終影響實用性。

今天的AI實際上有點(diǎn)像“應(yīng)試者”，面對問題時如果無法給出確定答案，為了提高成績，AI會通過猜測來應(yīng)對，因為猜測后成績更高。我們的世界并非絕對的二元對立，對與錯、黑與白，并非如此純粹簡單。生活中到處都是不確定性，真正的準(zhǔn)確可能根本就無法實現(xiàn)。

作為人類，當(dāng)我們走出校園，經(jīng)歷挫折和實踐，會逐漸領(lǐng)悟到“表達(dá)存在不確定性”的價值，但在語言模型中，表達(dá)不確定卻會遭到懲罰。

為了解決這一問題，OpenAI建議重新設(shè)計評估標(biāo)準(zhǔn)。在評估AI時，如果存在不確定情況，AI棄權(quán)，拒絕回應(yīng)，不應(yīng)該懲罰它。

OpenAI認(rèn)為：“我們的評估方法偏愛準(zhǔn)確性，這種方法需要更新，評分機(jī)制應(yīng)該努力抑制猜測行為。如果主要的評分系統(tǒng)一直鼓勵猜測，那么模型就會不斷學(xué)習(xí)如何猜測。”

幻覺成了AI的“癌癥”

“幻覺”問題嚴(yán)重阻礙了AI的普及。如果應(yīng)用于醫(yī)療保健或者金融領(lǐng)域，不可靠的結(jié)果可能會造成嚴(yán)重后果。

美國普渡大學(xué)研究人員Tianyang Xu認(rèn)為：“對于大多數(shù)幻覺而言，發(fā)生概率已經(jīng)降低到一個用戶可以接受的水平?！钡诜?、數(shù)學(xué)等領(lǐng)域，幻覺仍然是一大障礙。

加州大學(xué)認(rèn)知科學(xué)與人工智能研究專家Mark Steyvers表示：“OpenAI在做一些小努力，有進(jìn)步，但離目標(biāo)還很遠(yuǎn)，GPT并沒有頻繁地承認(rèn)自己不知道。”

Tianyang Xu認(rèn)為，擴(kuò)大模型規(guī)模可以改善幻覺問題，我們還可以豐富模型的內(nèi)部關(guān)聯(lián)，提高訓(xùn)練數(shù)據(jù)質(zhì)量。當(dāng)模型訓(xùn)練數(shù)據(jù)不足或者基礎(chǔ)信息存在錯誤時，幻覺問題尤其嚴(yán)重。此外，當(dāng)AI面對的論文太長、內(nèi)容超出理解能力時，無論是總結(jié)還是分析，都會產(chǎn)生幻覺現(xiàn)象。

哥本哈根AI公司Silvi的研究人員Mushtaq Bilal指出，完全消除幻覺幾乎是不可能的，如果能做到，AI企業(yè)早就做了。

Saachi Jain管理一個AI安全團(tuán)隊，他認(rèn)為，減少錯誤，讓模型承認(rèn)自己不知道，這是OpenAI關(guān)注的重點(diǎn)。針對問題，OpenAI傾向于給出冗長、開放式回答，這樣也能減少幻覺現(xiàn)象。

艾倫人工智能研究所AI研究員Akari Asai認(rèn)為，在一項名為“ScholarQA-CS”的文獻(xiàn)綜述基準(zhǔn)測試中，如果GPT-5允許聯(lián)網(wǎng)，它的表現(xiàn)很好。如果無法聯(lián)網(wǎng)，GPT-5就會出現(xiàn)問題，因為大多文獻(xiàn)綜述系統(tǒng)具備與學(xué)術(shù)數(shù)據(jù)庫交叉核對的能力，交叉校對至關(guān)重要。如果不聯(lián)網(wǎng)，GPT-5出現(xiàn)錯誤的概率相當(dāng)于GPT-4的兩倍。

New Scientist在一篇文章中表示，AI出現(xiàn)一定程度的幻覺是難以避免的，人類可以通過檢索增強(qiáng)生成技術(shù)來緩解，也就是讓模型參考外部數(shù)據(jù)，進(jìn)行交叉對比。問題在于，隨著模型的擴(kuò)大，“幻覺率”似乎并沒有降低，反而提高了。

New Scientist在2025年5月的一篇文章中指出，由于AI復(fù)雜度增加，幻覺更嚴(yán)重了。甚至有人大聲疾呼：“當(dāng)AI變得更智能時，幻覺不僅不會減少，反而會增加?！?

看來幻覺的確像是AI的癌癥，人類努力多年，無法治愈癌癥，可能幻覺也超出了人類認(rèn)知，屬于不可解決的范疇。（小刀）

聲明：該篇文章為本站原創(chuàng)，未經(jīng)授權(quán)不予轉(zhuǎn)載，侵權(quán)必究。

換一批

特朗普集團(tuán)移除T1手機(jī)“美國制造”標(biāo)語：關(guān)鍵參數(shù)亦被下調(diào)

特朗普集團(tuán)近日取消了其新推出的T1智能手機(jī)“將在美國制造”的宣傳標(biāo)語，此舉源于外界對這款手機(jī)能否以當(dāng)前定價在美國本土生產(chǎn)的質(zhì)疑。

關(guān)鍵字：特朗普蘋果 AI

[通信先鋒]

特朗普：已要求蘋果停止在印度建廠并增加美國產(chǎn)能

美國總統(tǒng)特朗普在公開場合表示，他已要求蘋果公司CEO蒂姆·庫克停止在印度建廠，矛頭直指該公司生產(chǎn)多元化的計劃。

關(guān)鍵字：特朗普蘋果 AI

[通信先鋒]

特朗普暫停90天執(zhí)行新關(guān)稅：蘋果股價大漲

4月10日消息，據(jù)媒體報道，美國總統(tǒng)特朗普宣布，美國對部分貿(mào)易伙伴暫停90天執(zhí)行新關(guān)稅政策，同時對中國的關(guān)稅提高到125%，該消息公布后蘋果股價飆升了15%。這次反彈使蘋果市值增加了4000多億美元，目前蘋果市值接近3萬...

關(guān)鍵字：特朗普 AI 人工智能特斯拉

[通信先鋒]

特朗普：蓄意破壞特斯拉的人或面臨20年監(jiān)禁

3月25日消息，據(jù)報道，當(dāng)?shù)貢r間3月20日，美國總統(tǒng)特朗普在社交媒體平臺“真實社交”上發(fā)文寫道：“那些被抓到破壞特斯拉的人，將有很大可能被判入獄長達(dá)20年，這包括資助(破壞特斯拉汽車)者，我們正在尋找你?！?/p> 關(guān)鍵字：特朗普 AI 人工智能特斯拉

[通信先鋒]