大數據(big data)是指無法在一定時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。通過快速獲取、處理、分析以從中提取價值的海量、多樣化的交易數據、交互數據與傳感數據,其規(guī)模往往達到了PB(1024TB)級。不同機構對大數據也有不同的定義。
大數據具有四大特性
麥肯錫對大數據的定義:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數據庫軟件工具能力范圍的數據集合,具有海量的數據規(guī)模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。
移動信息化研究中心對大數據的定義:大數據是幫助企業(yè)利用海量數據資產,實時、精確地洞察未知邏輯領域的動態(tài)變化,并快速重塑業(yè)務流程、組織和行業(yè)的新興數據管理技術。
IDC認為大數據具備海量(volume)、異構(Variety)、高速(Velocity)和價值(Value)四大特性。
流式處理占主導地位,Kafka和Spark成為主流應用
根據數據處理的時效性,大數據處理系統(tǒng)可以分為批式(batch)大數據和流式(streaming)大數據兩類。其中,批式大數據又被稱為歷史大數據,流式大數據又被稱為實時大數據。
以Hadoop為代表的批處理大數據系統(tǒng)需先將數據匯聚成批,經批量預處理后加載至分析型數據倉庫中,以進行高性能實時查詢。這類系統(tǒng)雖然可對完整大數據集實現高效的即席查詢,但無法查詢到最新的實時數據,存在數據遲滯高等問題。
以Spark Streaming、Storm、Flink為代表的流處理大數據系統(tǒng)將實時數據通過流處理,逐條加載至高性能內存數據庫中進行查詢。此類系統(tǒng)可以對最新實時數據實現高效預設分析處理模型的查詢,數據遲滯低。
隨著互聯網、計算機行業(yè)快速發(fā)展,企業(yè)對數據的時效性越發(fā)重視,企業(yè)應用也逐漸由批處理數據平臺向實時的流數據數據平臺轉移。以流數據處理為代表的Spark、kafka大數據系統(tǒng)近年來大放異彩,取代了Hadoop的主導地位。
全球大數據儲量規(guī)模爆發(fā)式增長
隨著物聯網、電子商務、社會化網絡的快速發(fā)展,全球大數據儲量迅猛增長,成為大數據產業(yè)發(fā)展的基礎。根據國際數據公司(IDC)的監(jiān)測數據顯示,2013年全球大數據儲量為4.3ZB(相當于47.24億個1TB容量的移動硬盤),2018年全球大數據儲量達到33.0ZB,同比增長52.8%。從大數據儲量分布情況來看,美國大數據儲量占比為21%,EMEA(歐洲、中東、非洲)占比為30%,中國地區(qū)占比為23%。





