AI 驅(qū)動(dòng)企業(yè) IT 運(yùn)維邁向預(yù)測(cè)性與智能化階段
![]() |
—— IBM 大中華區(qū)技術(shù)服務(wù)部總經(jīng)理潘軍
北京2026年4月10日 /美通社/ -- AI 正快速融入企業(yè)關(guān)鍵業(yè)務(wù)領(lǐng)域,但支撐其落地運(yùn)行的 IT 體系尚未完全做好準(zhǔn)備。IBM 調(diào)研數(shù)據(jù)顯示,77%的受訪高管希望加快 AI 應(yīng)用落地節(jié)奏,而僅有25%認(rèn)為現(xiàn)有 IT 基礎(chǔ)設(shè)施能夠支撐 AI 的規(guī)?;涞?。

潘軍IBM 大中華區(qū)技術(shù)服務(wù)部總經(jīng)理
這一"就緒度缺口"表明,AI 帶來(lái)的變革并非單一技術(shù)升級(jí),而是對(duì)企業(yè)整體 IT體系的系統(tǒng)性重構(gòu)。在 IBM 技術(shù)服務(wù)部看來(lái),AI 正在融入企業(yè)運(yùn)營(yíng)模型,推動(dòng) IT 運(yùn)維從傳統(tǒng)后端支持職能,向支撐業(yè)務(wù)創(chuàng)新的關(guān)鍵能力演進(jìn)。
運(yùn)維模式重構(gòu):從響應(yīng)式腳本進(jìn)化為智能體驅(qū)動(dòng)的運(yùn)維
長(zhǎng)期以來(lái),企業(yè) IT 運(yùn)維以"故障響應(yīng)"為核心。隨著企業(yè) IT 系統(tǒng)復(fù)雜度持續(xù)攀升,運(yùn)維模式正從傳統(tǒng)自動(dòng)化腳本向"自主智能體 AI(Agentic AI)"演進(jìn)。
這一轉(zhuǎn)變的核心在于運(yùn)維邏輯的升級(jí):基于 IBM watsonx 平臺(tái),AI 不再僅執(zhí)行預(yù)設(shè)規(guī)則,而是具備一定的自主推理能力,能夠拆解業(yè)務(wù)目標(biāo)并規(guī)劃端到端運(yùn)維任務(wù)的執(zhí)行路徑。通過(guò)多智能體協(xié)同,企業(yè)運(yùn)維體系可實(shí)現(xiàn)從狀態(tài)感知到?jīng)Q策執(zhí)行的閉環(huán)管理。在部分場(chǎng)景下,系統(tǒng)可自主完成根因分析并實(shí)現(xiàn)故障自愈,平均修復(fù)時(shí)間可縮短最高 80%。
目前,基于 IBM TLS Support Insights 平臺(tái),公司已在全球?yàn)槌^(guò) 3000 家客戶(hù)管理超過(guò) 400 萬(wàn)個(gè) IT 資產(chǎn)。在 IBM 相關(guān)實(shí)踐中,91%的 Call Home 設(shè)備告警請(qǐng)求已實(shí)現(xiàn)自動(dòng)化響應(yīng)和處置,從而緩解運(yùn)維壓力并提升系統(tǒng)穩(wěn)定性。
技術(shù)底座演進(jìn):應(yīng)對(duì) AI 規(guī)?;A(chǔ)設(shè)施約束
AI 規(guī)模化落地對(duì)基礎(chǔ)設(shè)施提出系統(tǒng)性挑戰(zhàn),其算力、運(yùn)力與存力的協(xié)同表現(xiàn),以及安全與混合云架構(gòu)設(shè)計(jì),直接影響基礎(chǔ)設(shè)施對(duì)業(yè)務(wù)目標(biāo)的支撐能力。
作為支撐算力集群效能的關(guān)鍵基礎(chǔ)設(shè)施,IDC 報(bào)告指出,在生成式 AI 訓(xùn)練場(chǎng)景中,網(wǎng)絡(luò)投入已占基礎(chǔ)設(shè)施總成本的約 44%。在運(yùn)力層面,AI 工作負(fù)載高度依賴(lài)海量"東西向流量"以及 GPU 間穩(wěn)定的低延遲通信,訓(xùn)練、推理、微調(diào)等核心場(chǎng)景對(duì)帶寬需求呈指數(shù)級(jí)增長(zhǎng),網(wǎng)絡(luò)接口正從 400G、800G 向更高速率演進(jìn)。以千卡級(jí) GPU 集群為例,計(jì)算網(wǎng)絡(luò)與管理網(wǎng)絡(luò)的疊加導(dǎo)致單個(gè)集群的線路規(guī)模激增(高達(dá)數(shù)千條),迫使布線方式從傳統(tǒng)直接跳線向更易于維護(hù)的結(jié)構(gòu)化布線轉(zhuǎn)型。
在存力層面,大模型應(yīng)用對(duì)數(shù)據(jù)吞吐、訪問(wèn)延遲與帶寬穩(wěn)定性提出了更高要求。為支撐海量運(yùn)維數(shù)據(jù)的實(shí)時(shí)處理與模型分析,企業(yè)正在探索存算分離與存算協(xié)同相結(jié)合的架構(gòu)模式。在此過(guò)程中,NVMe over Fabric 等高速存儲(chǔ)網(wǎng)絡(luò)技術(shù),可在一定程度上提升遠(yuǎn)程數(shù)據(jù)訪問(wèn)效率。在實(shí)際落地中,仍需結(jié)合本地高速存儲(chǔ)與數(shù)據(jù)分層策略,以降低對(duì)網(wǎng)絡(luò)路徑的依賴(lài)。整體來(lái)看,面向 AI 負(fù)載的存儲(chǔ)體系正呈現(xiàn)出熱數(shù)據(jù)全閃化、分層存儲(chǔ)與高帶寬互聯(lián)協(xié)同演進(jìn)的趨勢(shì),從而緩解"算力等待數(shù)據(jù)"的問(wèn)題,支撐 AI 運(yùn)維場(chǎng)景的高效運(yùn)行。
此外,在算力效能層面,面對(duì)能耗壓力,企業(yè)需要通過(guò) AI 驅(qū)動(dòng)的容量規(guī)劃與動(dòng)態(tài)資源調(diào)度,精細(xì)化調(diào)節(jié) NPU/GPU 服務(wù)器功耗并優(yōu)化負(fù)載分布。在特定優(yōu)化場(chǎng)景中,資源利用率可由約 65%提升至約 89%,在滿足業(yè)務(wù)峰值需求的同時(shí)提升整體算力效率。
在電力方面,智能風(fēng)控、智能客服等大規(guī)模 AI 應(yīng)用落地,對(duì)算力需求持續(xù)攀升,但傳統(tǒng)數(shù)據(jù)中心在供電密度與部署周期上難以適配 AI 發(fā)展節(jié)奏。高性能 GPU 集群,推動(dòng)單機(jī)柜功率從傳統(tǒng)的 5–10 千瓦快速提升至 30 千瓦以上,甚至在高密度部署場(chǎng)景中達(dá)到更高水平,使得大規(guī)模部署面臨供電與散熱改造的現(xiàn)實(shí)約束。同時(shí),能耗成本持續(xù)上升,疊加電力資源與 PUE 優(yōu)化壓力,進(jìn)一步加劇數(shù)據(jù)中心的運(yùn)營(yíng)負(fù)擔(dān)。
人機(jī)協(xié)同:以業(yè)務(wù)洞察引導(dǎo) AI 增強(qiáng),而非替代
在轉(zhuǎn)型過(guò)程中,IBM 強(qiáng)調(diào) AI 的核心價(jià)值在于增強(qiáng)專(zhuān)業(yè)能力,而非簡(jiǎn)單替代人力。AI 擅長(zhǎng)處理海量數(shù)據(jù)與重復(fù)性任務(wù),而人類(lèi)專(zhuān)家的核心價(jià)值在于對(duì)業(yè)務(wù)場(chǎng)景的理解與決策能力。
調(diào)研顯示,64%的 CEO 認(rèn)為,AI 的成功更依賴(lài)人的采納,而非技術(shù)本身,這反映出組織與流程因素在 AI 落地過(guò)程中的關(guān)鍵作用。在實(shí)際落地中,這通常體現(xiàn)為將 AI 能力嵌入一線工作流程。例如,在 IBM 內(nèi)部"零號(hào)客戶(hù)(Client Zero)"實(shí)踐中,通過(guò)坐席助手(Agent Assist)提供實(shí)時(shí)建議,初級(jí)工程師可借助 AI 完成專(zhuān)家級(jí)任務(wù),在緩解技能短缺的同時(shí),將問(wèn)題解決時(shí)間縮短約32%。
這一協(xié)作模式的關(guān)鍵在于"釋放與重塑":AI 減少重復(fù)性勞動(dòng),使運(yùn)維人員從"救火式"工作中轉(zhuǎn)向更具業(yè)務(wù)價(jià)值的領(lǐng)域。企業(yè)轉(zhuǎn)型效果在很大程度上取決于員工技能升級(jí)與人機(jī)協(xié)同能力的提升。
以全生命周期方法構(gòu)建"AI 就緒"的 IT 體系
企業(yè)需從局部單點(diǎn)優(yōu)化轉(zhuǎn)向體系化的"集成數(shù)據(jù)中心(Integrated Data Center)"建設(shè)。這不僅是技術(shù)堆棧的升級(jí),更是基于"AI 優(yōu)先(AI-First)"理念對(duì) IT 體系的整體重塑,覆蓋基礎(chǔ)設(shè)施規(guī)劃設(shè)計(jì)、部署實(shí)施、運(yùn)維優(yōu)化以及汰新下線的全生命周期管理。
在基礎(chǔ)設(shè)施層面,企業(yè)可通過(guò) AI 驅(qū)動(dòng)的容量規(guī)劃,精準(zhǔn)匹配算力、網(wǎng)絡(luò)和存儲(chǔ)需求,從而降低資源浪費(fèi)和總體擁有成本。在運(yùn)行階段,AI 驅(qū)動(dòng)的預(yù)防性維護(hù)可在部分場(chǎng)景下提前約 7 至 24 小時(shí)預(yù)測(cè)硬件瓶頸或潛在故障,實(shí)現(xiàn)從事后響應(yīng)向事前預(yù)防的轉(zhuǎn)變。在安全與合規(guī)層面,推進(jìn)"安全左移"策略,在規(guī)劃初期即引入自動(dòng)化治理機(jī)制。
IBM Support Insights(ISI)可對(duì)全球超過(guò) 400 萬(wàn)個(gè)資產(chǎn)及 150 萬(wàn)個(gè)活躍漏洞進(jìn)行實(shí)時(shí)監(jiān)測(cè),使運(yùn)維視野從單一可用性擴(kuò)展至全生命周期的合規(guī)與安全管理,從而在受控環(huán)境下充分釋放 AI 算力價(jià)值。
運(yùn)維能力成為企業(yè)長(zhǎng)期競(jìng)爭(zhēng)力的重要組成部分
總體來(lái)看,AI 正在推動(dòng)企業(yè) IT 體系持續(xù)演進(jìn)。運(yùn)維能力不再只是保障系統(tǒng)運(yùn)行的支持職能,而正逐步成為企業(yè)數(shù)字化能力的重要組成部分。數(shù)據(jù)中心運(yùn)維要求對(duì)基礎(chǔ)設(shè)施故障進(jìn)行快速發(fā)現(xiàn)與快速解決,避免引起大規(guī)模應(yīng)用系統(tǒng)異常。
構(gòu)建"1-5-10"安全可控智能閉環(huán),面對(duì) AI 負(fù)載帶來(lái)的系統(tǒng)復(fù)雜性,運(yùn)維體系正致力于實(shí)現(xiàn)"1 分鐘感知異常、5 分鐘定位根因、10 分鐘閉環(huán)修復(fù)"的目標(biāo)。通過(guò) AI 智能體與標(biāo)準(zhǔn)化協(xié)議(如 MCP 等)實(shí)時(shí)感知系統(tǒng)狀態(tài),系統(tǒng)能夠利用上下文推理迅速收斂根因;隨后調(diào)用預(yù)設(shè)的"授權(quán)動(dòng)作庫(kù)"(Skill),在安全權(quán)限內(nèi)執(zhí)行自主修復(fù)。這一從"分鐘級(jí)感知"到"確定性自愈"的跨越,正推動(dòng) IT 運(yùn)維從傳統(tǒng)支持職能向企業(yè)數(shù)字化核心競(jìng)爭(zhēng)力加速演進(jìn)。
在這一過(guò)程中,IBM 技術(shù)服務(wù)部作為全生命周期合作伙伴,致力于將 AI 能力與業(yè)務(wù)洞察結(jié)合,幫助客戶(hù)構(gòu)建具備故障自愈、資源優(yōu)化與成本可控能力的智能運(yùn)維體系,將 IT 資產(chǎn)轉(zhuǎn)化為可持續(xù)的競(jìng)爭(zhēng)優(yōu)勢(shì)。未來(lái)企業(yè) IT 的關(guān)鍵能力,不僅在于系統(tǒng)的穩(wěn)定運(yùn)行,更在于使系統(tǒng)具備被 AI 理解、調(diào)度與持續(xù)優(yōu)化的能力。
參考信息:
https://www.ibm.com/think/topics/ai-for-it-support
https://www.ibm.com/new/product-blog/technology-lifecycle-services-envisioning-the-next-generation-of-support-with-ai
https://www.ibm.com/think/insights/3-reasons-why-the-right-infrastructure-support-is-essential-for-ai
https://www.ibm.com/cn-zh/new/product-blog/new-idc-report-how-ai-is-reshaping-enterprise-networks
https://www.ciscolive.com/c/dam/r/ciscolive/emea/docs/2025/pdf/PARAI-1323.pdf
媒體聯(lián)絡(luò)人
李波
libole@cn.ibm.com
IBM中國(guó)






