新加坡國(guó)家AI計(jì)劃倒向中國(guó)大模型 棄用Meta轉(zhuǎn)投阿里千問(wèn)
11月26日消息,據(jù)媒體報(bào)道,新加坡國(guó)家人工智能計(jì)劃(AISG)正迎來(lái)一次關(guān)鍵的戰(zhàn)略轉(zhuǎn)向。在其最新的東南亞語(yǔ)言大模型項(xiàng)目中,AISG放棄了Meta的模型,轉(zhuǎn)而采用阿里巴巴的通義千問(wèn)(Qwen)開(kāi)源架構(gòu)。這一選擇不僅反映了技術(shù)路線上的重新考量,也標(biāo)志著中國(guó)開(kāi)源AI模型在全球影響力擴(kuò)展中的重要一步。
11月25日,AISG發(fā)布了基于Qwen架構(gòu)的“Qwen-SEA-LION-v4”模型,該模型迅速登頂一項(xiàng)衡量東南亞語(yǔ)言能力的開(kāi)源榜單。此舉旨在解決長(zhǎng)期困擾該地區(qū)的語(yǔ)言適配難題——以Meta的Llama系列為代表的西方開(kāi)源模型,在處理印尼語(yǔ)、泰語(yǔ)、馬來(lái)語(yǔ)等區(qū)域性語(yǔ)言時(shí)表現(xiàn)欠佳,嚴(yán)重制約了本地化AI應(yīng)用的開(kāi)發(fā)效率。
盡管Llama在開(kāi)源模型中性能領(lǐng)先,但其“英語(yǔ)中心主義”的底層設(shè)計(jì)難以根本改變,在處理泰語(yǔ)、緬甸語(yǔ)等非拉丁語(yǔ)系文字時(shí)效率極低。AISG逐漸認(rèn)識(shí)到,依賴(lài)硅谷的開(kāi)源模型并非東南亞國(guó)家的最優(yōu)解,必須尋找真正具備多語(yǔ)言理解能力、尤其是亞洲語(yǔ)言語(yǔ)境的基礎(chǔ)模型。
在這一背景下,AISG最終將目光投向了中國(guó),選擇以阿里的Qwen3-32B作為新一代Sea-Lion模型的基座。
與西方模型不同,Qwen3在預(yù)訓(xùn)練階段就使用了高達(dá)36萬(wàn)億個(gè)token的數(shù)據(jù),覆蓋全球119種語(yǔ)言和方言。這種“原生多語(yǔ)言能力”使其不僅“認(rèn)識(shí)”印尼語(yǔ)、馬來(lái)語(yǔ)等文字,更能從底層理解其語(yǔ)法結(jié)構(gòu),大幅降低了AISG后續(xù)訓(xùn)練的技術(shù)門(mén)檻。
為更好地適配東南亞語(yǔ)言獨(dú)特的書(shū)寫(xiě)習(xí)慣,Qwen-Sea-Lion-v4摒棄了西方模型常用的“句子分詞器”,轉(zhuǎn)而采用更先進(jìn)的字節(jié)對(duì)編碼(BPE)分詞器。該技術(shù)能更精準(zhǔn)地切分泰語(yǔ)、緬甸語(yǔ)等無(wú)空格語(yǔ)言中的字符,顯著提升翻譯準(zhǔn)確度與推理速度。
除技術(shù)優(yōu)勢(shì)外,商業(yè)落地的現(xiàn)實(shí)考量也是阿里勝出的關(guān)鍵。東南亞地區(qū)擁有大量中小企業(yè),難以承擔(dān)昂貴的H100 GPU集群。而經(jīng)過(guò)優(yōu)化的Qwen-Sea-Lion-v4可在配備32GB內(nèi)存的消費(fèi)級(jí)筆記本電腦上流暢運(yùn)行,使普通開(kāi)發(fā)者也能在本地部署這一國(guó)家級(jí)模型。這種“工業(yè)級(jí)能力、消費(fèi)級(jí)門(mén)檻”的特性,精準(zhǔn)契合了該地區(qū)算力資源稀缺的痛點(diǎn)。
此次合作并非單向技術(shù)輸出,而是一次深度的雙向融合。根據(jù)協(xié)議,阿里提供了強(qiáng)大的通用推理底座,AISG則貢獻(xiàn)了其經(jīng)過(guò)清洗的1000億個(gè)東南亞語(yǔ)言token。這些數(shù)據(jù)完全規(guī)避版權(quán)風(fēng)險(xiǎn),且東南亞內(nèi)容濃度高達(dá)13%,是Llama2的26倍。
在Sea-Helm評(píng)估榜單中,搭載阿里技術(shù)核心的Sea-Lion v4迅速登頂同量級(jí)開(kāi)源模型榜首,驗(yàn)證了這一戰(zhàn)略合作的技術(shù)價(jià)值與區(qū)域適配性。





