日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當(dāng)前位置:首頁 > 物聯(lián)網(wǎng) > 智能應(yīng)用
[導(dǎo)讀]在人工智能的發(fā)展歷程中,我們往往認(rèn)為更多的訓(xùn)練、更復(fù)雜的數(shù)據(jù)能讓 AI 變得更加智能。然而,近期一些研究卻揭示了令人意外的現(xiàn)象:對小型 AI 語言模型進(jìn)行數(shù)學(xué)訓(xùn)練時,過度訓(xùn)練可能會導(dǎo)致其表現(xiàn)急劇下降,甚至出現(xiàn) “變笨” 的情況。與此同時,強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)這兩種主流學(xué)習(xí)方式在其中所起的作用也大相徑庭,它們的差異值得深入探討。

人工智能的發(fā)展歷程中,我們往往認(rèn)為更多的訓(xùn)練、更復(fù)雜的數(shù)據(jù)能讓 AI 變得更加智能。然而,近期一些研究卻揭示了令人意外的現(xiàn)象:對小型 AI 語言模型進(jìn)行數(shù)學(xué)訓(xùn)練時,過度訓(xùn)練可能會導(dǎo)致其表現(xiàn)急劇下降,甚至出現(xiàn) “變笨” 的情況。與此同時,強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)這兩種主流學(xué)習(xí)方式在其中所起的作用也大相徑庭,它們的差異值得深入探討。

新加坡科技設(shè)計(jì)大學(xué)的研究團(tuán)隊(duì)在 2025 年 6 月的研究中發(fā)現(xiàn),當(dāng)對參數(shù)量在 30 億以下的小型 AI 語言模型進(jìn)行復(fù)雜數(shù)學(xué)推理過程的訓(xùn)練時,出現(xiàn)了 “長思維鏈退化” 現(xiàn)象。以只有 5 億參數(shù)的小型模型 Qwen2.5 - 0.5B 為例,用 8000 個包含詳細(xì)解題步驟的樣本訓(xùn)練它時,其準(zhǔn)確率從 14% 驟降至 7%,回答長度從平均 2000 個詞增加到 8000 個詞,但這些冗長回答大多錯誤。研究人員擴(kuò)大實(shí)驗(yàn)范圍,測試了九個不同的 AI 模型,涵蓋 5 億到 140 億參數(shù)范圍,使用包含 22.5 萬個數(shù)學(xué)問題及詳細(xì)解題過程的大型數(shù)據(jù)集,結(jié)果證實(shí)了這種退化現(xiàn)象的普遍性。如 Gemma3 - 1B 模型準(zhǔn)確率從 24% 降至 6%,Qwen2.5 - 14B 模型從 50% 降至 45%。這表明小型模型在接受長思維鏈訓(xùn)練時,性能反而下降。

深入探究這一現(xiàn)象背后的原因,研究團(tuán)隊(duì)提出小型模型在接受長思維鏈訓(xùn)練時,可能先學(xué)會了 “裝腔作勢”。為驗(yàn)證此假設(shè),他們開發(fā) “反思行為識別系統(tǒng)”,結(jié)果顯示,即使只用 8000 個長思維鏈樣本訓(xùn)練,所有 Qwen 模型的 “反思比例” 從不到 5% 急劇上升到約 75%,包含反思行為的回答平均比不包含的長 2000 個詞左右。這意味著模型只是快速學(xué)會使用反思性語言作為 “填充詞”,并未真正理解復(fù)雜推理,只是模仿表面形式特征,進(jìn)而導(dǎo)致回答冗長且錯誤,產(chǎn)生 “錯誤累積效應(yīng)”,每一個小錯誤在后續(xù)步驟中被放大,最終得出完全錯誤的結(jié)論。

這一現(xiàn)象也反映出強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)在 AI 訓(xùn)練中的巨大差異。監(jiān)督學(xué)習(xí)就像是有一位老師在旁邊時刻指導(dǎo),數(shù)據(jù)集中明確包含了輸入以及對應(yīng)的正確輸出標(biāo)簽。例如,在教 AI 識別貓和狗的圖片時,監(jiān)督學(xué)習(xí)的數(shù)據(jù)集中清晰標(biāo)注了每張圖片是貓還是狗,AI 通過學(xué)習(xí)這些已標(biāo)注的數(shù)據(jù)來構(gòu)建模型,以對新的圖片進(jìn)行準(zhǔn)確分類,反饋即時且明確。而強(qiáng)化學(xué)習(xí)則不同,智能體處于一個環(huán)境中,沒有明確的 “正確答案” 標(biāo)簽。智能體通過不斷嘗試不同的動作,從環(huán)境中獲得獎勵或懲罰作為反饋信號,以此來學(xué)習(xí)最優(yōu)策略。比如讓一個機(jī)器人在一個未知的房間里尋找出口,機(jī)器人嘗試不同的移動方向,若靠近出口,環(huán)境給予正獎勵,反之給予負(fù)獎勵,機(jī)器人根據(jù)這些延遲的獎勵信號來逐漸調(diào)整自己的行動策略,以找到最佳的走出房間的路徑。

在數(shù)學(xué)訓(xùn)練導(dǎo)致 AI 變笨這一情境中,若采用監(jiān)督學(xué)習(xí)方式對小型模型進(jìn)行長思維鏈訓(xùn)練,由于小型模型本身的容量限制,面對復(fù)雜的數(shù)學(xué)解題步驟這種 “高級課程”,即使有詳細(xì)的解題標(biāo)注作為 “老師的指導(dǎo)”,模型也可能因無法理解復(fù)雜邏輯,只是機(jī)械地記憶和模仿,從而產(chǎn)生大量錯誤。而如果采用強(qiáng)化學(xué)習(xí),模型在嘗試生成數(shù)學(xué)問題的解答過程中,由于自身能力不足,早期生成的錯誤解答會導(dǎo)致獲得負(fù)面反饋,并且由于 “錯誤累積效應(yīng)”,后續(xù)的探索方向也會被嚴(yán)重誤導(dǎo)。即使后續(xù)有獎勵信號引導(dǎo),之前養(yǎng)成的錯誤 “思維習(xí)慣” 也很難糾正,使得模型難以找到正確的解題策略,性能不斷下降。

然而,研究也帶來了希望。當(dāng)提供足夠大規(guī)模的訓(xùn)練數(shù)據(jù)(如 12.8 萬個樣本)時,大多數(shù)模型最終能夠恢復(fù)甚至超越原有性能。這意味著,在 AI 訓(xùn)練中,我們需要根據(jù)模型的特點(diǎn)和能力,合理選擇學(xué)習(xí)方式,并提供合適規(guī)模的數(shù)據(jù)。對于小型模型,在進(jìn)行復(fù)雜任務(wù)訓(xùn)練時,更要謹(jǐn)慎設(shè)計(jì)訓(xùn)練方案,避免過度訓(xùn)練導(dǎo)致性能下降。同時,深入理解強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)的差異,根據(jù)具體任務(wù)和模型特性靈活運(yùn)用這兩種學(xué)習(xí)方式,將有助于推動 AI 技術(shù)更健康、有效地發(fā)展,使 AI 真正實(shí)現(xiàn)智能提升,而非誤入 “變笨” 的歧途。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: 驅(qū)動電源

在工業(yè)自動化蓬勃發(fā)展的當(dāng)下,工業(yè)電機(jī)作為核心動力設(shè)備,其驅(qū)動電源的性能直接關(guān)系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動勢抑制與過流保護(hù)是驅(qū)動電源設(shè)計(jì)中至關(guān)重要的兩個環(huán)節(jié),集成化方案的設(shè)計(jì)成為提升電機(jī)驅(qū)動性能的關(guān)鍵。

關(guān)鍵字: 工業(yè)電機(jī) 驅(qū)動電源

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個照明設(shè)備的使用壽命。然而,在實(shí)際應(yīng)用中,LED 驅(qū)動電源易損壞的問題卻十分常見,不僅增加了維護(hù)成本,還影響了用戶體驗(yàn)。要解決這一問題,需從設(shè)計(jì)、生...

關(guān)鍵字: 驅(qū)動電源 照明系統(tǒng) 散熱

根據(jù)LED驅(qū)動電源的公式,電感內(nèi)電流波動大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字: LED 設(shè)計(jì) 驅(qū)動電源

電動汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術(shù)之一是電機(jī)驅(qū)動控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機(jī)驅(qū)動系統(tǒng)中的關(guān)鍵元件,其性能直接影響到電動汽車的動力性能和...

關(guān)鍵字: 電動汽車 新能源 驅(qū)動電源

在現(xiàn)代城市建設(shè)中,街道及停車場照明作為基礎(chǔ)設(shè)施的重要組成部分,其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進(jìn)步,高亮度白光發(fā)光二極管(LED)因其獨(dú)特的優(yōu)勢逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關(guān)鍵字: 發(fā)光二極管 驅(qū)動電源 LED

LED通用照明設(shè)計(jì)工程師會遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關(guān)鍵字: LED 驅(qū)動電源 功率因數(shù)校正

在LED照明技術(shù)日益普及的今天,LED驅(qū)動電源的電磁干擾(EMI)問題成為了一個不可忽視的挑戰(zhàn)。電磁干擾不僅會影響LED燈具的正常工作,還可能對周圍電子設(shè)備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關(guān)鍵字: LED照明技術(shù) 電磁干擾 驅(qū)動電源

開關(guān)電源具有效率高的特性,而且開關(guān)電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機(jī)重量也有所下降,所以,現(xiàn)在的LED驅(qū)動電源

關(guān)鍵字: LED 驅(qū)動電源 開關(guān)電源

LED驅(qū)動電源是把電源供應(yīng)轉(zhuǎn)換為特定的電壓電流以驅(qū)動LED發(fā)光的電壓轉(zhuǎn)換器,通常情況下:LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: LED 隧道燈 驅(qū)動電源
關(guān)閉