面對AI以及未來,我們需要怎樣靠譜的存儲方案?
經(jīng)過短短幾年時間的發(fā)展,全社會共同見證了AI從技術崛起到產(chǎn)業(yè)崛起的過程。ICT市場的關注重點也從最開始的自然語義識別、機器視覺、邏輯判斷等純技術領域向著智慧醫(yī)療、智慧金融、智慧交通、智慧政府等產(chǎn)業(yè)應用領域轉變。而這種轉變不僅是數(shù)字化轉型的一部分,更實踐了AI從技術趨勢到產(chǎn)業(yè)落地再到商機發(fā)掘的完整價值鏈條。在這場涉及整個IT領域和全行業(yè)應用的歷史性變革之中,技術、產(chǎn)品、方案和應用都在高速發(fā)展。其中,機遇很多,挑戰(zhàn)亦不小。
眾所周知,AI應用是對算力的巨大挑戰(zhàn),每一次推理都需要復雜且不斷重復的數(shù)值計算來完成,而訓練AI的過程更是要面對海量數(shù)據(jù)的反復計算。在發(fā)展AI的過程中,龐大的算力需求甚至帶來了整個數(shù)據(jù)中心的架構改變。而這也正是異構計算以及對應的管理方式成為近些年服務器和數(shù)據(jù)中心行業(yè)變革的重點。
AI時代,計算之外的基礎架構變革雖然AI的產(chǎn)生和應用基于計算,但AI對于整個基礎架構領域的影響卻并沒有止步于計算。
作為AI產(chǎn)業(yè)的上游,算法的產(chǎn)生需要長時間、高強度的訓練過程。而數(shù)據(jù)正是驅動這一過程高速進行的重要燃料之一。要保證AI引擎的持續(xù)高效運行,承載數(shù)據(jù)的存儲系統(tǒng)也必須要跟上時代的腳步。
正如同AI帶來了算力市場的變革,另一場針對AI的存儲設備革新也在如火如荼。
非結構化:伴隨數(shù)據(jù)庫和統(tǒng)計學的發(fā)展,人們已經(jīng)有非常多的手段和工具來管理和處理結構化的數(shù)據(jù)。但在機器視覺、語音語義識別等主流的AI應用領域當中,非結構化的視頻、圖片、音頻才是數(shù)據(jù)的主要類別。在No-SQL之外,企業(yè)用戶仍舊迫切需要一套專門針對AI應用的非結構化數(shù)據(jù)管理解決方案。
龐大的文件規(guī)模:從數(shù)據(jù)的角度來看,AI同樣是一種典型的大數(shù)據(jù)應用。而這種數(shù)據(jù)的“大”并非只是單純意義的容量大,更意味著文件數(shù)量的龐大。要獲得高精度的AI模型,訓練集的內(nèi)容會非常可觀。在實際的應用當中,這樣的訓練集至少都要包含數(shù)萬個文件,而除此之外還要有驗證集和測試集;而有時,文字或圖片類AI訓練庫的樣本空間更是高達數(shù)十萬個文件。更何況,在訓練的過程當中,AI訓練程序還會產(chǎn)生大量的過程數(shù)據(jù)和紀錄。當一套存儲系統(tǒng)要面對同時進行的數(shù)套AI訓練應用時,超大規(guī)模文件管理也就成了AI對存儲提出的新挑戰(zhàn)。
IO優(yōu)化:傳統(tǒng)環(huán)境下,評判存儲系統(tǒng)性能的高低通常需要在不同的讀寫比例下進行測試;這一比例可能是3:7、4:6、5:5等等。但對于AI應用來說,傳統(tǒng)存儲讀寫平衡的情況似乎很少出現(xiàn),更多的是在訓練過程中對海量數(shù)據(jù)的大量讀操作。換句話說,AI訓練是一個典型的輸入很多、輸出很少的應用。另一方面,由于AI的訓練通常以計算集群方式進行,因此,與數(shù)據(jù)源一樣,存儲結構也需要從串行變?yōu)椴⑿?。而在這一過程中不同數(shù)據(jù)節(jié)點的負載均衡也同樣值得關注。
數(shù)據(jù)生命周期管理:在AI與行業(yè)深度融合的當下,企業(yè)越來越需要具備場景屬性的AI應用。換句話說,只有用生產(chǎn)數(shù)據(jù)訓練出來的AI才能更好的在生產(chǎn)場景中發(fā)揮價值。但顯然,任何生產(chǎn)數(shù)據(jù)的獲得與管理都不是一件“便宜”的事情。因此,專門針對AI訓練進行調(diào)整的數(shù)據(jù)生命周期管理系統(tǒng)也就順理成章的構成了AI對存儲系統(tǒng)挑戰(zhàn)的另一個維度。
以上只是AI對于存儲架構帶來挑戰(zhàn)的幾個主要層面,在具體的應用當中,實際的技術層挑戰(zhàn)還有更多。
要應對這些存儲挑戰(zhàn),解決方案提供者不僅要了解存儲、有深厚的技術底蘊,更要了解AI應用形態(tài),具備豐富的AI實踐經(jīng)驗。但在當今市場上,能把存儲技術和豐富的AI經(jīng)驗融合到一起、并通過強大的產(chǎn)品力將之打造為方案的廠牌真的存在嗎?
為AI插上騰飛的翅膀
AI應用帶給存儲的挑戰(zhàn)并不小,但我們真的需要一套專門針對AI需求再開發(fā)一套新的存儲系統(tǒng)嗎?
仔細分析AI帶給IA的挑戰(zhàn),無論數(shù)據(jù)類型、數(shù)據(jù)模式、數(shù)據(jù)管理還是對多種不同用戶的數(shù)據(jù)輸出,其都是數(shù)據(jù)湖的另一種特化應用形態(tài)。因此,在數(shù)字化轉型和AI發(fā)展道路上,企業(yè)只需找到一款能夠對AI提供更好支持的數(shù)據(jù)湖存儲便可實現(xiàn)一舉多得。
2020年7月,IBM針對數(shù)據(jù)湖市場發(fā)布了全新的ESS 5000系列存儲,并通過一系列針對AI應用的全面優(yōu)化為市場帶來了應用、效能以及成本三個維度上的全新平衡。
作為IBM Elastic Storage System家族的新成員,ESS 5000系列是一款面向文件的數(shù)據(jù)湖產(chǎn)品。通過使用磁盤介質,ESS 5000系列能夠為企業(yè)的各類存儲需求提供更低的成本。ESS 5000目前包含2種型號,標準機柜構型的SL型號和采用加深機柜的SC型號。其中SL型號能夠以260TB/u的密度提供552TB至8.8PB的存儲空間;而采用加深機柜的SC型號則能夠以375TB/u的密度提供1-13.5PB的存儲空間。
采用磁盤系統(tǒng)并不意味著ESS 5000在性能上會受到任何限制。相反,通過進一步的IO優(yōu)化,在典型的12節(jié)點配置當中,ESS 5000能夠提供55GB/s的超高讀取速度,相對于目前市場上其他的磁盤類文件存儲系統(tǒng),讀取性能至少提升300%。
而在配合基于NVMe閃存的ESS 3000時,企業(yè)便能夠在簡化存儲系統(tǒng)結構的同時滿足更高性能和容量方面的需求。
打造包容AI的寬廣數(shù)據(jù)湖當然,性能、容量與擴展性方面的提升和型號的簡化只是ESS 5000對于企業(yè)用戶的見面禮,其真正的價值在于內(nèi)部對于各類先進架構的支持、融合與更新。
1、全面與云融合
ESS 5000是一款與云架構全面融合的產(chǎn)品。通過與紅帽RedHat Open Shift容器平臺的全面兼容,各類基于容器的AI應用可以在ESS 5000上進行方便的數(shù)據(jù)索引,降低AI訓練在數(shù)據(jù)準備階段所需的時間和工作量。
2、更多數(shù)據(jù)源支持
ESS 5000支持更多類型的數(shù)據(jù)源,而這些數(shù)據(jù)源不僅可以來自于傳統(tǒng)的業(yè)務系統(tǒng),更可以來自移動端、物聯(lián)網(wǎng)、傳感器等新一代數(shù)據(jù)源。而這樣的設計不僅讓AI應用能夠獲得更多、更廣泛的業(yè)務數(shù)據(jù),更可以擴展整個企業(yè)數(shù)據(jù)湖的寬度,為基于數(shù)據(jù)的精細化管理和業(yè)務轉型鋪平道路。
3、更全面數(shù)據(jù)生命周期管理
由于目前的AI技術仍舊需要通過海量數(shù)據(jù)來獲取業(yè)務洞察,所以無論AI或其他數(shù)字化應用,尋求數(shù)據(jù)的多維度價值都是其核心目的。而在這一應用形態(tài)長期不變的前提下,數(shù)據(jù)的生命周期管理和其在不同介質、系統(tǒng)中的高效移動就成為了加速數(shù)據(jù)價值體現(xiàn)的關鍵一步。作為廣受好評的元數(shù)據(jù)管理解決方案,IBM Spectrum系列軟件有著極高的人氣和應用范圍。而新推出的ESS 5000系列則可以與Spectrum Discover、Spectrum Scale Data Acceleration for AI等方案進行聯(lián)合容器化部署,增強AI應用中的數(shù)據(jù)移動、數(shù)據(jù)管理,并降低備份產(chǎn)生的空間損失,為數(shù)據(jù)生命周期管理補齊AI短板。
4、YB級命名空間
針對AI訓練中所需的龐大文件數(shù)量和集群產(chǎn)生的海量過程文件,ESS 5000還能夠支持YB級別(10的24次方)的命名空間,為AI更復雜的卷積應用創(chuàng)造前提。
以AI為契機,探索存儲新未來AI是眼下ICT及數(shù)字化轉型中最主要的方向之一,在為商業(yè)應用提供全新模式的同時,AI給整個基礎架構帶來的新需求、新挑戰(zhàn)也讓越來越多企業(yè)意識到,在基礎設施的構建過程中,每一種設備都需要具備面向未來和全新應用的兼容能力。
而IBM在ESS 5000上所展示的技術和應用方式正是這種未來思維模式的結晶。通過架構簡化、多方案融合、容器化以及面向應用的細致優(yōu)化,ESS能夠讓企業(yè)數(shù)據(jù)湖應對AI所帶來的的一系列挑戰(zhàn)。而具備這樣能力的數(shù)據(jù)湖也正是數(shù)據(jù)價值得以進一步體現(xiàn)的前提。
IBM免費咨詢專線400-669-2039
【IT葡萄皮】(公眾號:itopics)由資深媒體人張垞運營。從業(yè)十二年的深度觀察,只為一篇不吐不快的科技評論。
聯(lián)系方式
電話:18612920630
電子郵件:69240891@163.com
微信:z87136954
QQ:87136954
免責聲明:本文內(nèi)容由21ic獲得授權后發(fā)布,版權歸原作者所有,本平臺僅提供信息存儲服務。文章僅代表作者個人觀點,不代表本平臺立場,如有問題,請聯(lián)系我們,謝謝!





