美團發(fā)布LongCat-Flash-Omni:總參數(shù)達5600億 開源最先進水平
11月4日消息,昨日,美團LongCat(龍貓)團隊正式推出全新開源大模型LongCat-Flash-Omni。
該大模型總參數(shù)規(guī)模高達5600億,實現(xiàn)全模態(tài)能力突破,登頂開源領(lǐng)域最先進水平(SOTA)。
今年9月1日,美團正式發(fā)布LongCat-Flash系列模型,并開源了LongCat-Flash-Chat和LongCat-Flash-Thinking兩大版本。
此次LongCat-Flash-Omni是系列全新家族成員。它也是業(yè)界首個實現(xiàn)“全模態(tài)覆蓋、端到端架構(gòu)、大參數(shù)量高效推理”于一體的開源大語言模型,首次在開源范疇內(nèi)實現(xiàn)了全模態(tài)能力對閉源模型的對標。
該模型的核心突破在于破解了“大參數(shù)與高效率”的行業(yè)矛盾。
該模型總參數(shù)達5600億(激活參數(shù)270億),卻依托LongCat-Flash系列創(chuàng)新的ScMoE架構(gòu)(含零計算專家)作為LLM骨干,結(jié)合高效多模態(tài)編解碼器和“分塊式音視頻特征交織機制”,最終實現(xiàn)低延遲、高質(zhì)量的音視頻處理與流式語音生成。
模型支持128K tokens上下文窗口及超8分鐘音視頻交互,在多模態(tài)長時記憶、多輪對話、時序推理等能力上具備顯著優(yōu)勢。
實測顯示,其圖像理解性能與閉源全模態(tài)模型 Gemini-2.5-Pro 相當,且優(yōu)于開源模型 Qwen3-Omni。短視頻理解性能超越同類模型,長視頻處理能力比肩Gemini-2.5-Pro。
落地體驗上,LongCat官方App現(xiàn)已正式發(fā)布,支持聯(lián)網(wǎng)搜索,還可以發(fā)起語音通話(視頻通話功能敬請期待)。





