大數(shù)據(jù):改變游戲規(guī)則的技術(shù)
掃描二維碼
隨時(shí)隨地手機(jī)看文章
不管你怎么看,大數(shù)據(jù)既讓人頭疼,又是一大機(jī)遇。從 一大堆結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)中實(shí)時(shí)展現(xiàn)有用事實(shí)的能力, 也許能幫助政府機(jī)構(gòu)更好地決策,簡(jiǎn)化流程,細(xì)化服務(wù)。
定義
盡管關(guān)于大數(shù)據(jù)沒有一個(gè)統(tǒng)一的定義,但大數(shù)據(jù)主要指 的是規(guī)模超過一般數(shù)據(jù)庫(kù)軟件工具能力(捕獲能力、存儲(chǔ)能力、管理能力和分析能力)的數(shù)據(jù)集。關(guān)于大數(shù)據(jù)的定義,每個(gè) 行業(yè)不盡相同,主要看使用的軟件工具以及數(shù)據(jù)集的規(guī)模。
系統(tǒng)地認(rèn)識(shí)大數(shù)據(jù)
大數(shù)據(jù)的發(fā)展主要由網(wǎng)絡(luò)的爆炸性發(fā)展而推動(dòng)。行業(yè)觀 察員估計(jì),2008年,網(wǎng)絡(luò)接入數(shù)量首次超過了全球人口 ;到 2020年,預(yù)計(jì)網(wǎng)絡(luò)接入數(shù)量將超過500億。
麥肯錫對(duì)大數(shù)據(jù)進(jìn)行大量研究后表示,2010年,全球所 有機(jī)構(gòu)硬盤上儲(chǔ)存的新數(shù)據(jù)數(shù)量超過了 7艾字節(jié),而消費(fèi)者 在個(gè)人電腦和筆記本電腦上儲(chǔ)存的新數(shù)據(jù)也達(dá)到6艾字節(jié)。1 艾字節(jié)的數(shù)據(jù)量是美國(guó)國(guó)會(huì)圖書館數(shù)據(jù)量的四倍。市場(chǎng)研究 公司IDC說,在美國(guó)聯(lián)邦政府,數(shù)據(jù)量每?jī)赡昃头环?,?近期沒有速度放緩的趨勢(shì)。
公私行業(yè)的很多機(jī)構(gòu)都面臨著大數(shù)據(jù)處理的挑戰(zhàn)。例如,如何從這些數(shù)據(jù)中獲得運(yùn)營(yíng)價(jià)值。大數(shù)據(jù)“大”在何處是個(gè) 不容易回答的問題。NIST信息技術(shù)實(shí)驗(yàn)室信息存取處負(fù)責(zé)人 Ashit Talukder表示,大數(shù)據(jù)很難捕獲、存儲(chǔ)、捜索、分享和 分析,而且增長(zhǎng)很快。Talukder說:“大數(shù)據(jù)可能包含了百億 甚至萬億條記錄,它們結(jié)構(gòu)松散,甚至沒有結(jié)構(gòu)。”
Talukder表示,這些記錄大部分都是混雜的,且模式多樣, 分布在多個(gè)網(wǎng)絡(luò)或云環(huán)境中。這些記錄還彼此聯(lián)系,數(shù)據(jù)來 源多樣。
同時(shí),AIIM近期的一份調(diào)查顯示,60%的IT執(zhí)行官認(rèn) 為把結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)集聯(lián)系起來“非常有用”。調(diào)查 中,超過半數(shù)的被調(diào)查者表示,他們認(rèn)為對(duì)非機(jī)構(gòu)性數(shù)據(jù)展 開深入分析“很有價(jià)值”(56%)或“非常有價(jià)值”(18%)。
大數(shù)據(jù)的主要特點(diǎn)
大數(shù)據(jù)主要有如下特點(diǎn)(3V):
-容量(Volume) ——超大數(shù)據(jù)規(guī)模;
-速度(Velocity)——數(shù)據(jù)流速快;
?種類(Variety)—涉及各種數(shù)據(jù)、網(wǎng)絡(luò)和節(jié)點(diǎn)等。
此外,當(dāng)提到方法時(shí),大數(shù)據(jù)通常指的是數(shù)據(jù)分析的發(fā) 現(xiàn)方法,即可用數(shù)據(jù)或使用數(shù)據(jù)的能力以獨(dú)特的方式結(jié)合后產(chǎn) 生了其他方法不可能產(chǎn)生的發(fā)現(xiàn)。當(dāng)前,政府機(jī)構(gòu)收集的數(shù) 據(jù)中只有一小部分進(jìn)行了處理和分析。Talukder表示,大數(shù)據(jù) 的容量和復(fù)雜性引發(fā)了很多挑戰(zhàn)。然而,大數(shù)據(jù)也為“知識(shí)型” 分析和發(fā)現(xiàn)(而非“假設(shè)性”發(fā)現(xiàn))提供了巨大潛能?!八?望解決以前無法解決的問題,并從以前未處理的數(shù)據(jù)中獲得新 的發(fā)現(xiàn)?!?
云中的大數(shù)據(jù)
云計(jì)算為大數(shù)據(jù)提供了一個(gè)優(yōu)化儲(chǔ)存、計(jì)算、存取和虛 擬的環(huán)境。根據(jù)NIST,云的互通性可以讓不同云中的數(shù)據(jù)集 彼此協(xié)作,增強(qiáng)了共享、協(xié)作和分析多個(gè)大型數(shù)據(jù)集的能力。
云計(jì)算創(chuàng)造了一個(gè)獨(dú)一無二的作為主機(jī)、存儲(chǔ)、處理和 存取大數(shù)據(jù)的機(jī)會(huì),這種靈活的方式可隨時(shí)隨地按需存取數(shù) 據(jù)。政府機(jī)構(gòu)很快有望利用云計(jì)算應(yīng)對(duì)大數(shù)據(jù)的挑戰(zhàn):
?為上百萬研究人員提供強(qiáng)大的研究工具;
-極大地縮短費(fèi)時(shí)研究的周期;
-利用規(guī)模經(jīng)濟(jì)極大減少IT研究開支。
除了云計(jì)算能幫助政府機(jī)構(gòu)分析大數(shù)據(jù)流這一潛在優(yōu)勢(shì) 外,Talukder堅(jiān)持認(rèn)為,要讓大數(shù)據(jù)分析的承諾變?yōu)楝F(xiàn)實(shí), 還有很多地方需要改善。例如,我們需要大數(shù)據(jù)軟件、運(yùn)算法則、硬件和基礎(chǔ)設(shè)施方面更好的標(biāo)準(zhǔn),量度和互通性。基礎(chǔ)數(shù)學(xué) 和統(tǒng)計(jì)學(xué)需要發(fā)展,包括大數(shù)據(jù)的機(jī)器學(xué)習(xí),大數(shù)據(jù)的分析 和類型認(rèn)知,以及二次抽樣和不確定性的量度標(biāo)準(zhǔn)。
Talukder還對(duì)大量復(fù)雜數(shù)據(jù)的運(yùn)算法則提出了更高要求, 同時(shí)還應(yīng)增強(qiáng)大數(shù)據(jù)的虛擬化和實(shí)用性,更好的集群、分類 和安全以及隱私保護(hù)。另外,大數(shù)據(jù)存儲(chǔ)、計(jì)算和顯示/虛擬 化方面的網(wǎng)絡(luò)、硬件和軟件基礎(chǔ)設(shè)施技術(shù)的技術(shù)改進(jìn)也很有 必要。事實(shí)上,云計(jì)算和大數(shù)據(jù)配合默契(見表1)。
表1云計(jì)算和大數(shù)據(jù)的配合意義
|
云計(jì)算和大數(shù)據(jù)配合默契 |
|
|
云供應(yīng)商 按需自助服務(wù) 無處不在的網(wǎng)絡(luò)接入 資源共享 快速適應(yīng)性 限制接入的(公私)混合云 |
大數(shù)據(jù)需求 故障容差 多種協(xié)議 靈活性(存儲(chǔ)、內(nèi)存、網(wǎng)絡(luò)等) 靈活性(節(jié)點(diǎn)分配/拆卸) 安全數(shù)據(jù)接入 |
大數(shù)據(jù)分析的興起
大數(shù)據(jù)分析可以在多個(gè)領(lǐng)域部署,通過數(shù)據(jù)使用得出的 實(shí)驗(yàn)證據(jù)解決運(yùn)行流程中的主要問題,挖掘新的發(fā)現(xiàn),而不 是利用傳統(tǒng)的分析方法。以下一些主要行業(yè)和領(lǐng)域,還能從 大數(shù)據(jù)分析中獲益:
-環(huán)境和地球科學(xué);
-醫(yī)療科學(xué);
?天文學(xué);
-網(wǎng)絡(luò)安全;
?辯論學(xué)(物理和電腦/網(wǎng)絡(luò)的辯論學(xué));
?檢測(cè);
?社會(huì)媒體分析;
?復(fù)雜網(wǎng)絡(luò)系統(tǒng)的設(shè)計(jì)和運(yùn)營(yíng);
?交通物流優(yōu)化;
?知識(shí)產(chǎn)權(quán)管理;
?天氣預(yù)報(bào);
?自然資源的開采和保護(hù);
?災(zāi)后預(yù)測(cè)性評(píng)估。
Gartner的研究中強(qiáng)調(diào)應(yīng)向更加“情景感知化”的安全模 式轉(zhuǎn)變。例如,網(wǎng)絡(luò)上來自傳感器和其他設(shè)備的數(shù)據(jù)可用于 抵御網(wǎng)絡(luò)威脅,即使其他已授權(quán)的安全工具都認(rèn)為是安全的。Gartner預(yù)測(cè),大數(shù)據(jù)分析將有助于增強(qiáng)監(jiān)管力度,協(xié)助各種 機(jī)構(gòu)在提供云服務(wù)時(shí)更好地管理數(shù)據(jù)和系統(tǒng)。
大數(shù)據(jù)要求大思路
據(jù)預(yù)測(cè),未來兩年,美國(guó)政府機(jī)構(gòu)將再增加1艾字節(jié)的 數(shù)據(jù)量,這相當(dāng)于6 200萬個(gè)16 GB iPad的數(shù)據(jù)量!
當(dāng)數(shù)據(jù)的增長(zhǎng)速度與轉(zhuǎn)移這些數(shù)據(jù)(很大一部分是視頻、音頻、社會(huì)媒體等方式生成的非機(jī)構(gòu)性數(shù)據(jù))所需的帶寬和 網(wǎng)速相關(guān)聯(lián)時(shí),問題就變得非常清晰:大數(shù)據(jù)的規(guī)模和復(fù)雜 性超過了標(biāo)準(zhǔn)工具在一定時(shí)間內(nèi)能捕獲、存儲(chǔ)、管理和分析的 能力。
NetApp公司美國(guó)公共行業(yè)首席技術(shù)官員Dale Wickizer 說:“在數(shù)據(jù)處理方面,各機(jī)構(gòu)都處在轉(zhuǎn)折點(diǎn)上,開展業(yè)務(wù)也 變得困難。如果不加以改變,數(shù)據(jù)會(huì)把你淹沒,成為基礎(chǔ)設(shè) 施的沉重開支和風(fēng)險(xiǎn)負(fù)擔(dān)。但如果你知道如何利用它,它就 會(huì)變成一個(gè)資本?!?
最近,MeriTalk的調(diào)查也證實(shí)了這個(gè)說法??偟膩碚f,政府機(jī)構(gòu)的負(fù)責(zé)人都希望能有更好的方式來利用數(shù)據(jù)提高效 率,加速?zèng)Q策并改善預(yù)測(cè)能力。各機(jī)構(gòu)預(yù)計(jì),當(dāng)前,他們只存 取了49%的數(shù)據(jù),利用了 46%的計(jì)算能力,只有44%的人需 要利用大數(shù)據(jù)來開展工作。
隨著大數(shù)據(jù)越來越成為存儲(chǔ)方面的挑戰(zhàn),非常有必要讓 既懂存儲(chǔ)又了解聯(lián)邦政府的專家介入。
20211020_616eebdd13fba__大數(shù)據(jù)





