數(shù)學訓練讓 AI 變笨?強化學習與監(jiān)督學習的差異
在人工智能的發(fā)展歷程中,我們往往認為更多的訓練、更復雜的數(shù)據(jù)能讓 AI 變得更加智能。然而,近期一些研究卻揭示了令人意外的現(xiàn)象:對小型 AI 語言模型進行數(shù)學訓練時,過度訓練可能會導致其表現(xiàn)急劇下降,甚至出現(xiàn) “變笨” 的情況。與此同時,強化學習與監(jiān)督學習這兩種主流學習方式在其中所起的作用也大相徑庭,它們的差異值得深入探討。
新加坡科技設計大學的研究團隊在 2025 年 6 月的研究中發(fā)現(xiàn),當對參數(shù)量在 30 億以下的小型 AI 語言模型進行復雜數(shù)學推理過程的訓練時,出現(xiàn)了 “長思維鏈退化” 現(xiàn)象。以只有 5 億參數(shù)的小型模型 Qwen2.5 - 0.5B 為例,用 8000 個包含詳細解題步驟的樣本訓練它時,其準確率從 14% 驟降至 7%,回答長度從平均 2000 個詞增加到 8000 個詞,但這些冗長回答大多錯誤。研究人員擴大實驗范圍,測試了九個不同的 AI 模型,涵蓋 5 億到 140 億參數(shù)范圍,使用包含 22.5 萬個數(shù)學問題及詳細解題過程的大型數(shù)據(jù)集,結(jié)果證實了這種退化現(xiàn)象的普遍性。如 Gemma3 - 1B 模型準確率從 24% 降至 6%,Qwen2.5 - 14B 模型從 50% 降至 45%。這表明小型模型在接受長思維鏈訓練時,性能反而下降。
深入探究這一現(xiàn)象背后的原因,研究團隊提出小型模型在接受長思維鏈訓練時,可能先學會了 “裝腔作勢”。為驗證此假設,他們開發(fā) “反思行為識別系統(tǒng)”,結(jié)果顯示,即使只用 8000 個長思維鏈樣本訓練,所有 Qwen 模型的 “反思比例” 從不到 5% 急劇上升到約 75%,包含反思行為的回答平均比不包含的長 2000 個詞左右。這意味著模型只是快速學會使用反思性語言作為 “填充詞”,并未真正理解復雜推理,只是模仿表面形式特征,進而導致回答冗長且錯誤,產(chǎn)生 “錯誤累積效應”,每一個小錯誤在后續(xù)步驟中被放大,最終得出完全錯誤的結(jié)論。
這一現(xiàn)象也反映出強化學習與監(jiān)督學習在 AI 訓練中的巨大差異。監(jiān)督學習就像是有一位老師在旁邊時刻指導,數(shù)據(jù)集中明確包含了輸入以及對應的正確輸出標簽。例如,在教 AI 識別貓和狗的圖片時,監(jiān)督學習的數(shù)據(jù)集中清晰標注了每張圖片是貓還是狗,AI 通過學習這些已標注的數(shù)據(jù)來構(gòu)建模型,以對新的圖片進行準確分類,反饋即時且明確。而強化學習則不同,智能體處于一個環(huán)境中,沒有明確的 “正確答案” 標簽。智能體通過不斷嘗試不同的動作,從環(huán)境中獲得獎勵或懲罰作為反饋信號,以此來學習最優(yōu)策略。比如讓一個機器人在一個未知的房間里尋找出口,機器人嘗試不同的移動方向,若靠近出口,環(huán)境給予正獎勵,反之給予負獎勵,機器人根據(jù)這些延遲的獎勵信號來逐漸調(diào)整自己的行動策略,以找到最佳的走出房間的路徑。
在數(shù)學訓練導致 AI 變笨這一情境中,若采用監(jiān)督學習方式對小型模型進行長思維鏈訓練,由于小型模型本身的容量限制,面對復雜的數(shù)學解題步驟這種 “高級課程”,即使有詳細的解題標注作為 “老師的指導”,模型也可能因無法理解復雜邏輯,只是機械地記憶和模仿,從而產(chǎn)生大量錯誤。而如果采用強化學習,模型在嘗試生成數(shù)學問題的解答過程中,由于自身能力不足,早期生成的錯誤解答會導致獲得負面反饋,并且由于 “錯誤累積效應”,后續(xù)的探索方向也會被嚴重誤導。即使后續(xù)有獎勵信號引導,之前養(yǎng)成的錯誤 “思維習慣” 也很難糾正,使得模型難以找到正確的解題策略,性能不斷下降。
然而,研究也帶來了希望。當提供足夠大規(guī)模的訓練數(shù)據(jù)(如 12.8 萬個樣本)時,大多數(shù)模型最終能夠恢復甚至超越原有性能。這意味著,在 AI 訓練中,我們需要根據(jù)模型的特點和能力,合理選擇學習方式,并提供合適規(guī)模的數(shù)據(jù)。對于小型模型,在進行復雜任務訓練時,更要謹慎設計訓練方案,避免過度訓練導致性能下降。同時,深入理解強化學習與監(jiān)督學習的差異,根據(jù)具體任務和模型特性靈活運用這兩種學習方式,將有助于推動 AI 技術(shù)更健康、有效地發(fā)展,使 AI 真正實現(xiàn)智能提升,而非誤入 “變笨” 的歧途。





