英特爾酷睿Ultra平臺(tái)Day 0支持Qwen3-VL輕量化新模型,帶來卓越AI體驗(yàn)
在阿里通義今晨發(fā)布Qwen3-VL系列新成員Qwen3-VL-4B和Qwen3-VL-8B之際,英特爾于今日同步宣布,已經(jīng)在酷睿 Ultra 平臺(tái)上完成對(duì)這些最新模型的適配。此次Day 0支持延續(xù)了十天前對(duì)Qwen3新模型快速適配的卓越速度,再次印證了英特爾在加速AI技術(shù)創(chuàng)新、積極構(gòu)建模型合作生態(tài)方面的深度投入與行動(dòng)力。
此次發(fā)布的Qwen3-VL系列新模型,在延續(xù)其卓越的文本理解和生成、深度視覺感知與推理、更長(zhǎng)的上下文長(zhǎng)度、增強(qiáng)的空間與視頻動(dòng)態(tài)理解及強(qiáng)大代理交互能力的同時(shí),憑借其輕量化的模型參數(shù)設(shè)計(jì),在英特爾酷睿Ultra平臺(tái)上可以實(shí)現(xiàn)高效部署,為復(fù)雜的圖片和視頻理解及智能體應(yīng)用帶來更出色的性能與體驗(yàn)。
為確保用戶能夠獲得更流暢的AI體驗(yàn),英特爾在酷睿Ultra平臺(tái)上,對(duì)Qwen3-VL-4B 模型進(jìn)行了創(chuàng)新的CPU、GPU和NPU混合部署,充分釋放了XPU架構(gòu)的強(qiáng)大潛力。通過精巧地分解并優(yōu)化復(fù)雜的視覺語言模型負(fù)載鏈路,并將更多負(fù)載精準(zhǔn)調(diào)度至專用的NPU上,此次英特爾的Day 0支持實(shí)現(xiàn)了:
?顯著的能效優(yōu)化:大幅降低CPU占用率,更好地支持用戶并發(fā)應(yīng)用。
?卓越的性能表現(xiàn):在混合部署場(chǎng)景中,模型運(yùn)行吞吐量達(dá)到22.7tps。
?流暢的用戶體驗(yàn):充分利用酷睿Ultra的跨平臺(tái)能力,提供無縫的AI交互。
以下的演示視頻充分地展示了該成果:Qwen3-VL-4B模型在圖片理解與分析任務(wù)中,在高效利用NPU算力的同時(shí),顯著降低了CPU的資源占用。
快速上手指南
第一步環(huán)境準(zhǔn)備
基于以下命令可以完成模型部署任務(wù)在Python上的環(huán)境安裝。
該示例在以下環(huán)境中已得到驗(yàn)證:
?硬件環(huán)境:
英特爾® 酷睿? Ultra 7 258V
iGPU驅(qū)動(dòng)版本:32.0.101.6733
內(nèi)存: 32GB
?操作系統(tǒng):
Windows 11 24H2 (26100.4061)
OpenVINO版本:
openvino 2025.3.0
第二步模型下載和轉(zhuǎn)換
在部署模型之前,首先需要將原始的PyTorch模型轉(zhuǎn)換為OpenVINOTM的IR靜態(tài)圖格式,并對(duì)其進(jìn)行壓縮,以實(shí)現(xiàn)更輕量化的部署和最佳的性能表現(xiàn)。通過Optimum提供的命令行工具optimum-cli,可以一鍵完成模型的格式轉(zhuǎn)換和權(quán)重量化任務(wù):
開發(fā)者可以根據(jù)模型的輸出結(jié)果,調(diào)整其中的量化參數(shù),包括:
--model: 為模型在HuggingFace上的model id,這里也提前下載原始模型,并將model id替換為原始模型的本地路徑,針對(duì)國(guó)內(nèi)開發(fā)者,推薦使用ModelScope魔搭社區(qū)作為原始模型的下載渠道,具體加載方式可以參考ModelScope官方指南:https://www.modelscope.cn/docs/models/download
--weight-format:量化精度,可以選擇fp32,fp16,int8,int4,int4_sym_g128,int4_asym_g128,int4_sym_g64,int4_asym_g64
--group-size:權(quán)重里共享量化參數(shù)的通道數(shù)量
--ratio:int4/int8權(quán)重比例,默認(rèn)為1.0,0.6表示60%的權(quán)重以int4表,40%以int8表示
--sym:是否開啟對(duì)稱量化
第三步模型部署
除了利用Optimum-cli工具導(dǎo)出OpenVINOTM模型外,我們還在Optimum-intel中重構(gòu)了Qwen3-VL和Qwen3-VL-MOE模型的Pipeline,將官方示例示例中的的Qwen3VLForConditionalGeneration替換為OVModelForVisualCausalLM便可快速利用OpenVINOTM進(jìn)行模型部署,完整示例可參考以下代碼流程。
以下為該模型在圖像理解任務(wù)中的輸出示例:
(圖片由AI生成,僅做效果演示)
*性能數(shù)據(jù)基于以下測(cè)試獲得:在搭載酷睿Ultra 7 258V處理器的平臺(tái)上,采用OpenVINO框架2025.4.0.dev20250922版本,所有計(jì)算均在XPU上完成。測(cè)試評(píng)估了首個(gè)token延遲和在nf4-mixed-cw-sym精度設(shè)置下處理1K輸入時(shí)的平均吞吐量。為保證數(shù)據(jù)可靠性,每個(gè)測(cè)試均在預(yù)熱后執(zhí)行三次,并取平均值作為最終結(jié)果。性能因使用方式、配置和其他因素而異。
性能結(jié)果基于測(cè)試時(shí)的配置狀態(tài),可能未反映所有公開可用的更新內(nèi)容。請(qǐng)參閱相關(guān)文檔以獲取配置詳情。沒有任何產(chǎn)品或組件能夠保證絕對(duì)安全。您的實(shí)際成本和結(jié)果可能會(huì)有所不同。





