英特爾酷睿Ultra平臺Day 0支持Qwen3-VL輕量化新模型,帶來卓越AI體驗
在阿里通義今晨發(fā)布Qwen3-VL系列新成員Qwen3-VL-4B和Qwen3-VL-8B之際,英特爾于今日同步宣布,已經(jīng)在酷睿 Ultra 平臺上完成對這些最新模型的適配。此次Day 0支持延續(xù)了十天前對Qwen3新模型快速適配的卓越速度,再次印證了英特爾在加速AI技術創(chuàng)新、積極構建模型合作生態(tài)方面的深度投入與行動力。
此次發(fā)布的Qwen3-VL系列新模型,在延續(xù)其卓越的文本理解和生成、深度視覺感知與推理、更長的上下文長度、增強的空間與視頻動態(tài)理解及強大代理交互能力的同時,憑借其輕量化的模型參數(shù)設計,在英特爾酷睿Ultra平臺上可以實現(xiàn)高效部署,為復雜的圖片和視頻理解及智能體應用帶來更出色的性能與體驗。
為確保用戶能夠獲得更流暢的AI體驗,英特爾在酷睿Ultra平臺上,對Qwen3-VL-4B 模型進行了創(chuàng)新的CPU、GPU和NPU混合部署,充分釋放了XPU架構的強大潛力。通過精巧地分解并優(yōu)化復雜的視覺語言模型負載鏈路,并將更多負載精準調(diào)度至專用的NPU上,此次英特爾的Day 0支持實現(xiàn)了:
?顯著的能效優(yōu)化:大幅降低CPU占用率,更好地支持用戶并發(fā)應用。
?卓越的性能表現(xiàn):在混合部署場景中,模型運行吞吐量達到22.7tps。
?流暢的用戶體驗:充分利用酷睿Ultra的跨平臺能力,提供無縫的AI交互。
以下的演示視頻充分地展示了該成果:Qwen3-VL-4B模型在圖片理解與分析任務中,在高效利用NPU算力的同時,顯著降低了CPU的資源占用。
快速上手指南
第一步環(huán)境準備
基于以下命令可以完成模型部署任務在Python上的環(huán)境安裝。
該示例在以下環(huán)境中已得到驗證:
?硬件環(huán)境:
英特爾® 酷睿? Ultra 7 258V
iGPU驅動版本:32.0.101.6733
內(nèi)存: 32GB
?操作系統(tǒng):
Windows 11 24H2 (26100.4061)
OpenVINO版本:
openvino 2025.3.0
第二步模型下載和轉換
在部署模型之前,首先需要將原始的PyTorch模型轉換為OpenVINOTM的IR靜態(tài)圖格式,并對其進行壓縮,以實現(xiàn)更輕量化的部署和最佳的性能表現(xiàn)。通過Optimum提供的命令行工具optimum-cli,可以一鍵完成模型的格式轉換和權重量化任務:
開發(fā)者可以根據(jù)模型的輸出結果,調(diào)整其中的量化參數(shù),包括:
--model: 為模型在HuggingFace上的model id,這里也提前下載原始模型,并將model id替換為原始模型的本地路徑,針對國內(nèi)開發(fā)者,推薦使用ModelScope魔搭社區(qū)作為原始模型的下載渠道,具體加載方式可以參考ModelScope官方指南:https://www.modelscope.cn/docs/models/download
--weight-format:量化精度,可以選擇fp32,fp16,int8,int4,int4_sym_g128,int4_asym_g128,int4_sym_g64,int4_asym_g64
--group-size:權重里共享量化參數(shù)的通道數(shù)量
--ratio:int4/int8權重比例,默認為1.0,0.6表示60%的權重以int4表,40%以int8表示
--sym:是否開啟對稱量化
第三步模型部署
除了利用Optimum-cli工具導出OpenVINOTM模型外,我們還在Optimum-intel中重構了Qwen3-VL和Qwen3-VL-MOE模型的Pipeline,將官方示例示例中的的Qwen3VLForConditionalGeneration替換為OVModelForVisualCausalLM便可快速利用OpenVINOTM進行模型部署,完整示例可參考以下代碼流程。
以下為該模型在圖像理解任務中的輸出示例:
(圖片由AI生成,僅做效果演示)
*性能數(shù)據(jù)基于以下測試獲得:在搭載酷睿Ultra 7 258V處理器的平臺上,采用OpenVINO框架2025.4.0.dev20250922版本,所有計算均在XPU上完成。測試評估了首個token延遲和在nf4-mixed-cw-sym精度設置下處理1K輸入時的平均吞吐量。為保證數(shù)據(jù)可靠性,每個測試均在預熱后執(zhí)行三次,并取平均值作為最終結果。性能因使用方式、配置和其他因素而異。
性能結果基于測試時的配置狀態(tài),可能未反映所有公開可用的更新內(nèi)容。請參閱相關文檔以獲取配置詳情。沒有任何產(chǎn)品或組件能夠保證絕對安全。您的實際成本和結果可能會有所不同。





