解析大數(shù)據的定義與特征
大數(shù)據研究專家維克托·邁爾-舍恩伯格曾經說過:世界的本質是數(shù)據。在他看來,認識大數(shù)據之前,世界原本就是一個數(shù)據時代;認識大數(shù)據之后,世界不可避免地分為大數(shù)據時代、小數(shù)據時代。
隨著社會不斷發(fā)展的腳步,各類數(shù)據不斷累積,如果說小數(shù)據時代的各類分析調研更多的是靠樣本采集,那么現(xiàn)在,不管從數(shù)據的維度還是層次來看,數(shù)據體量的累積已經到了一個非常夯實的階段。
在這兩個時代的過渡中,人們也自然而然的從先前的樣本思維轉變成大數(shù)據時代需要具備的整體思維,以更好的運用大數(shù)據,或者說,抽樣調查將成為過去時,對所有數(shù)據進行分析處理才是大數(shù)據時代應有的思維方式。
大數(shù)據的多種定義
對于大數(shù)據的具體定義和價值,大多數(shù)人都停留在知其然而不知其所以然的階段。
但這也并不妨礙大數(shù)據這一詞匯在大眾心中的高度,它代表著先進,代表著高科技,代表著不可預知但可以預見的未來世界。
麥肯錫最早提出了大數(shù)據時代的到來:“數(shù)據,已經滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產因素。人們對于海量數(shù)據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來?!?/p>
對于大數(shù)據的定義,權威機構們給出了不同的表述:
世界知名咨詢企業(yè)Gartner給出的定義是:“大數(shù)據”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應海量、高增長率和多樣化的信息資產。
麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據庫軟件工具能力范圍的數(shù)據集合,具有海量的數(shù)據規(guī)模、快速的數(shù)據流轉、多樣的數(shù)據類型和價值密度低四大特征。
還有一些是這樣表述的,大數(shù)據是指“無法用現(xiàn)有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數(shù)據集合。”
不管是信息資產還是數(shù)據集合,這些定義無不在昭示著大數(shù)據對于人們未來社會的價值。
大數(shù)據的特征
大數(shù)據(BigData)是指「無法用現(xiàn)有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數(shù)據集合?!箻I(yè)界通常用4個V(即Volume、Variety、Value、Velocity)來概括大數(shù)據的特征。
Volume,數(shù)據體量巨大。如果單單從存儲量方面來考量的話,從最小的數(shù)據存儲單位bit開始,按順序往上Byte、KB、MB、GB、TB、PB、EB……那么截至目前,人類生產的所有印刷材料的數(shù)據量可達數(shù)百PB,而歷史上有記載開始人類說過的所有的話的數(shù)據量大約要以EB來衡量。截至目前,人類生產的所有印刷材料的數(shù)據量是200PB,而歷史上全人類說過的所有的話的數(shù)據量大約是5EB(1EB=210PB)。
Variety,數(shù)據類型繁多。類型的多樣性讓數(shù)據被分為結構化數(shù)據和非結構化數(shù)據。相對于以往便于存儲的以文本為主的結構化數(shù)據,非結構化數(shù)據越來越多,包括網絡日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數(shù)據對數(shù)據的處理能力提出了更高要求。
Value,價值密度低。價值密度的高低與數(shù)據總量的大小成反比。數(shù)據總量越大,無效冗余的數(shù)據則越多,如何通過強大的機器算法迅速地完成數(shù)據的價值“提純”是目前大數(shù)據背景下亟待解決的難題。
Velocity,處理速度快。這是大數(shù)據區(qū)分于傳統(tǒng)數(shù)據挖掘的最顯著特征,根據IDC“數(shù)字宇宙”的報告,預計到2020年,全球數(shù)據使用量將達到35.2ZB。在如此海量的數(shù)據面前,處理數(shù)據的效率就是企業(yè)的生命。
大數(shù)據的類型大致可分為三類:
傳統(tǒng)企業(yè)數(shù)據(Traditional enterprise data):包括 CRM systems的消費者數(shù)據,傳統(tǒng)的ERP數(shù)據,庫存數(shù)據以及賬目數(shù)據等。
機器和傳感器數(shù)據(Machine-generated /sensor data):包括呼叫記錄(Call Detail Records),智能儀表,工業(yè)設備傳感器,設備日志(通常是Digital exhaust),交易數(shù)據等。
社交數(shù)據(Social data):包括用戶行為記錄,反饋數(shù)據等。如Twitter,F(xiàn)acebook這樣的社交媒體平臺。





