數(shù)學訓練讓 AI 變笨?強化學習與監(jiān)督學習的差異

時間：2025-08-13 15:36:53

關(guān)鍵字：人工智能數(shù)據(jù) 模型

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]在人工智能的發(fā)展歷程中，我們往往認為更多的訓練、更復雜的數(shù)據(jù)能讓 AI 變得更加智能。然而，近期一些研究卻揭示了令人意外的現(xiàn)象：對小型 AI 語言模型進行數(shù)學訓練時，過度訓練可能會導致其表現(xiàn)急劇下降，甚至出現(xiàn) “變笨” 的情況。與此同時，強化學習與監(jiān)督學習這兩種主流學習方式在其中所起的作用也大相徑庭，它們的差異值得深入探討。

在人工智能的發(fā)展歷程中，我們往往認為更多的訓練、更復雜的數(shù)據(jù)能讓 AI 變得更加智能。然而，近期一些研究卻揭示了令人意外的現(xiàn)象：對小型 AI 語言模型進行數(shù)學訓練時，過度訓練可能會導致其表現(xiàn)急劇下降，甚至出現(xiàn) “變笨” 的情況。與此同時，強化學習與監(jiān)督學習這兩種主流學習方式在其中所起的作用也大相徑庭，它們的差異值得深入探討。

新加坡科技設計大學的研究團隊在 2025 年 6 月的研究中發(fā)現(xiàn)，當對參數(shù)量在 30 億以下的小型 AI 語言模型進行復雜數(shù)學推理過程的訓練時，出現(xiàn)了 “長思維鏈退化” 現(xiàn)象。以只有 5 億參數(shù)的小型模型 Qwen2.5 - 0.5B 為例，用 8000 個包含詳細解題步驟的樣本訓練它時，其準確率從 14% 驟降至 7%，回答長度從平均 2000 個詞增加到 8000 個詞，但這些冗長回答大多錯誤。研究人員擴大實驗范圍，測試了九個不同的 AI 模型，涵蓋 5 億到 140 億參數(shù)范圍，使用包含 22.5 萬個數(shù)學問題及詳細解題過程的大型數(shù)據(jù)集，結(jié)果證實了這種退化現(xiàn)象的普遍性。如 Gemma3 - 1B 模型準確率從 24% 降至 6%，Qwen2.5 - 14B 模型從 50% 降至 45%。這表明小型模型在接受長思維鏈訓練時，性能反而下降。

深入探究這一現(xiàn)象背后的原因，研究團隊提出小型模型在接受長思維鏈訓練時，可能先學會了 “裝腔作勢”。為驗證此假設，他們開發(fā) “反思行為識別系統(tǒng)”，結(jié)果顯示，即使只用 8000 個長思維鏈樣本訓練，所有 Qwen 模型的 “反思比例” 從不到 5% 急劇上升到約 75%，包含反思行為的回答平均比不包含的長 2000 個詞左右。這意味著模型只是快速學會使用反思性語言作為 “填充詞”，并未真正理解復雜推理，只是模仿表面形式特征，進而導致回答冗長且錯誤，產(chǎn)生 “錯誤累積效應”，每一個小錯誤在后續(xù)步驟中被放大，最終得出完全錯誤的結(jié)論。

這一現(xiàn)象也反映出強化學習與監(jiān)督學習在 AI 訓練中的巨大差異。監(jiān)督學習就像是有一位老師在旁邊時刻指導，數(shù)據(jù)集中明確包含了輸入以及對應的正確輸出標簽。例如，在教 AI 識別貓和狗的圖片時，監(jiān)督學習的數(shù)據(jù)集中清晰標注了每張圖片是貓還是狗，AI 通過學習這些已標注的數(shù)據(jù)來構(gòu)建模型，以對新的圖片進行準確分類，反饋即時且明確。而強化學習則不同，智能體處于一個環(huán)境中，沒有明確的 “正確答案” 標簽。智能體通過不斷嘗試不同的動作，從環(huán)境中獲得獎勵或懲罰作為反饋信號，以此來學習最優(yōu)策略。比如讓一個機器人在一個未知的房間里尋找出口，機器人嘗試不同的移動方向，若靠近出口，環(huán)境給予正獎勵，反之給予負獎勵，機器人根據(jù)這些延遲的獎勵信號來逐漸調(diào)整自己的行動策略，以找到最佳的走出房間的路徑。

在數(shù)學訓練導致 AI 變笨這一情境中，若采用監(jiān)督學習方式對小型模型進行長思維鏈訓練，由于小型模型本身的容量限制，面對復雜的數(shù)學解題步驟這種 “高級課程”，即使有詳細的解題標注作為 “老師的指導”，模型也可能因無法理解復雜邏輯，只是機械地記憶和模仿，從而產(chǎn)生大量錯誤。而如果采用強化學習，模型在嘗試生成數(shù)學問題的解答過程中，由于自身能力不足，早期生成的錯誤解答會導致獲得負面反饋，并且由于 “錯誤累積效應”，后續(xù)的探索方向也會被嚴重誤導。即使后續(xù)有獎勵信號引導，之前養(yǎng)成的錯誤 “思維習慣” 也很難糾正，使得模型難以找到正確的解題策略，性能不斷下降。

然而，研究也帶來了希望。當提供足夠大規(guī)模的訓練數(shù)據(jù)(如 12.8 萬個樣本)時，大多數(shù)模型最終能夠恢復甚至超越原有性能。這意味著，在 AI 訓練中，我們需要根據(jù)模型的特點和能力，合理選擇學習方式，并提供合適規(guī)模的數(shù)據(jù)。對于小型模型，在進行復雜任務訓練時，更要謹慎設計訓練方案，避免過度訓練導致性能下降。同時，深入理解強化學習與監(jiān)督學習的差異，根據(jù)具體任務和模型特性靈活運用這兩種學習方式，將有助于推動 AI 技術(shù)更健康、有效地發(fā)展，使 AI 真正實現(xiàn)智能提升，而非誤入 “變笨” 的歧途。

本站聲明：本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

與傳統(tǒng)的驅(qū)動方式相比，共陰恒流驅(qū)動在能效有哪些優(yōu)勢

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字：驅(qū)動電源

[電源]

工業(yè)電機驅(qū)動電源設計：反電動勢抑制與過流保護的集成方案

在工業(yè)自動化蓬勃發(fā)展的當下，工業(yè)電機作為核心動力設備，其驅(qū)動電源的性能直接關(guān)系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中，反電動勢抑制與過流保護是驅(qū)動電源設計中至關(guān)重要的兩個環(huán)節(jié)，集成化方案的設計成為提升電機驅(qū)動性能的關(guān)鍵。

關(guān)鍵字：工業(yè)電機驅(qū)動電源

[電源]

如何解決 LED 驅(qū)動電源的易損壞問題

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”，其穩(wěn)定性直接決定了整個照明設備的使用壽命。然而，在實際應用中，LED 驅(qū)動電源易損壞的問題卻十分常見，不僅增加了維護成本，還影響了用戶體驗。要解決這一問題，需從設計、生...

關(guān)鍵字：驅(qū)動電源照明系統(tǒng) 散熱

[電力電工電路]

LED設計中LED驅(qū)動電源的公式

根據(jù)LED驅(qū)動電源的公式，電感內(nèi)電流波動大小和電感值成反比，輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字： LED 設計驅(qū)動電源

[汽車電子]

EV主驅(qū)IGBT隔離驅(qū)動電源方案選擇問題探討

電動汽車(EV)作為新能源汽車的重要代表，正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術(shù)之一是電機驅(qū)動控制系統(tǒng)，而絕緣柵雙極型晶體管(IGBT)作為電機驅(qū)動系統(tǒng)中的關(guān)鍵元件，其性能直接影響到電動汽車的動力性能和...

關(guān)鍵字：電動汽車新能源驅(qū)動電源

[電源]

合理的驅(qū)動電源方案成為大功率區(qū)域照明的主流選擇

在現(xiàn)代城市建設中，街道及停車場照明作為基礎設施的重要組成部分，其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進步，高亮度白光發(fā)光二極管(LED)因其獨特的優(yōu)勢逐漸取代傳統(tǒng)光源，成為大功率區(qū)域...

關(guān)鍵字：發(fā)光二極管驅(qū)動電源 LED

[消費電子]