DeepSeek發(fā)布梁文鋒署名新論文 V4有望支持全新記憶架構(gòu)
1月13日消息,今日,DeepSeek發(fā)布新論文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(基于可擴(kuò)展查找的條件記憶:大型語(yǔ)言模型稀疏性的新維度)。
該論文為北京大學(xué)與DeepSeek共同完成,合著作者署名中出現(xiàn)梁文鋒。
論文提出條件記憶(conditional memory),通過(guò)引入可擴(kuò)展的查找記憶結(jié)構(gòu),在等參數(shù)、等算力條件下顯著提升模型在知識(shí)調(diào)用、推理、代碼、數(shù)學(xué)等任務(wù)上的表現(xiàn)。
此外,DeepSeek還開(kāi)源相關(guān)記憶模塊Engram。
該模塊提出了“查—算分離”的全新架構(gòu)思路,業(yè)內(nèi)認(rèn)為,Engram有望成為DeepSeek下一代模型V4的核心技術(shù)基礎(chǔ)。
據(jù)媒體報(bào)道,知情人士透露,DeepSeek計(jì)劃于2月中旬農(nóng)歷新年前后推出V4模型,不過(guò)具體時(shí)間仍可能調(diào)整。





