大數(shù)據(jù)技術(shù)需要面對的現(xiàn)實
掃描二維碼
隨時隨地手機(jī)看文章
對于很多企業(yè)來說,大數(shù)據(jù)只是一個模糊的目標(biāo),而不是現(xiàn)實。然而,這是一個目標(biāo),越來越多的企業(yè)正在推動他們的首要任務(wù)清單。正如Gartner的調(diào)查所顯示的那樣,每個人都熱衷于加入大數(shù)據(jù)的大潮,但真正理解其中原因的人卻相對較少。大數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越成為數(shù)據(jù)的主要部分。正如Gartner的分析師Svetlana Sicular所指出的,阻礙大數(shù)據(jù)采用的迷思取決于企業(yè)采用大數(shù)據(jù)的曲線在哪里。2014年,許多愚蠢的大數(shù)據(jù)神話將被數(shù)據(jù)驅(qū)動應(yīng)用程序的經(jīng)驗增長所取代。沒有人能一下子從大數(shù)據(jù)新手變成久經(jīng)世故的人。這就是為什么對大數(shù)據(jù)項目的敏捷方法如此重要的原因,正如我在這里寫的和之前在Strata會議上介紹的。失敗是必然的。關(guān)鍵是最小化失敗的成本,這就是為什么像Hadoop這樣的開源技術(shù)對大數(shù)據(jù)的成功如此關(guān)鍵。
Sicular以以下方式展示了大數(shù)據(jù)的成功之路:
她指出,在這個過程中,阻礙我們進(jìn)步改變的神話。Sicular識別出的第一組大數(shù)據(jù)神話可以歸結(jié)為對大數(shù)據(jù)含義的核心誤解,以及隨之而來的對工作所需的正確技術(shù)的困惑。例如,Sicular識別出的第一個大數(shù)據(jù)神話是一個根深蒂固的信念,即大數(shù)據(jù)是一個數(shù)據(jù)量的問題。她發(fā)現(xiàn),現(xiàn)實要微妙得多:大數(shù)據(jù)是高容量、高速度和高多樣性的信息資產(chǎn),需要成本效益高、創(chuàng)新的信息處理形式,以增強(qiáng)洞察力和決策能力。事實上,包括來自新華帝合作伙伴的研究(如右圖所示)在內(nèi)的多項研究都表明,對于大多數(shù)大數(shù)據(jù)項目來說,數(shù)據(jù)的速度和多樣性是最重要的特征。
因此,另一個長期存在的神話——大數(shù)據(jù)就是hadoop——阻止企業(yè)探索更符合實際的大數(shù)據(jù)使用的技術(shù),比如NoSQL技術(shù)(用于不同數(shù)據(jù)類型的實時處理)和“邏輯數(shù)據(jù)倉庫”,完成Sicular的技術(shù)棧促使企業(yè)考慮這些技術(shù)。一旦企業(yè)已經(jīng)超越了這些新手的錯誤,他們就準(zhǔn)備好處理更高級的神話。在這個“意識到”階段,企業(yè)有更好的理解,數(shù)據(jù)很重要,如何處理它,但他們錯誤的認(rèn)為可以解決他們所有的問題如果有足夠多的數(shù)據(jù),并錯誤地認(rèn)為同齡人遠(yuǎn)遠(yuǎn)領(lǐng)先于他們。
因此,Sicular將大數(shù)據(jù)問題與那些“業(yè)務(wù)問題”隔離開來,這些業(yè)務(wù)問題的問題是事先不知道的,回答這些問題的數(shù)據(jù)類型可能會有所不同,而且可能需要非結(jié)構(gòu)化的數(shù)據(jù)。換句話說,當(dāng)你想先存儲數(shù)據(jù),然后再查詢數(shù)據(jù)時,大數(shù)據(jù)是有用的。如果您知道應(yīng)該對事務(wù)性收銀機(jī)數(shù)據(jù)提出什么問題,而這些數(shù)據(jù)恰好適合關(guān)系數(shù)據(jù)庫,那么您可能就不會遇到大數(shù)據(jù)問題。如果您存儲的是相同的數(shù)據(jù),以及一系列天氣、社交和其他數(shù)據(jù),以試圖找到可能影響銷售的趨勢,那么您可能需要這樣做。
這并不是說唯一重要的數(shù)據(jù)是企業(yè)外部的非結(jié)構(gòu)化數(shù)據(jù)。事實上,事實可能恰恰相反。正如“黑暗數(shù)據(jù)”所假設(shè)的那樣。對于所有研究大數(shù)據(jù)機(jī)遇的企業(yè)來說,最大的興趣在于如何利用現(xiàn)有數(shù)據(jù)倉庫中的未充分利用的數(shù)據(jù)。當(dāng)被問及目前哪些數(shù)據(jù)企業(yè)在分析時,事務(wù)性數(shù)據(jù)和日志數(shù)據(jù)是最受歡迎的兩個回答。許多最有趣的數(shù)據(jù)已經(jīng)存在于大型機(jī)和企業(yè)內(nèi)的關(guān)系數(shù)據(jù)庫中,但是在過去管理不善。大數(shù)據(jù)項目通常應(yīng)該從已有的數(shù)據(jù)開始,但沒有得到有效利用。
Sicular的第三階段是企業(yè)積極試驗他們的數(shù)據(jù),但仍然因為缺乏技術(shù)和不成熟的技術(shù)而感到困惑。在這個階段,企業(yè)轉(zhuǎn)向神秘的數(shù)據(jù)科學(xué)家,發(fā)現(xiàn)她很難找到,而且也不一定是這個工作的合適人選。Sicular并沒有把重點(diǎn)放在尋找“數(shù)據(jù)科學(xué)家”上,而是敦促企業(yè)組建一個“擁有多種技能的多學(xué)科團(tuán)隊,以迎接技術(shù)挑戰(zhàn),解決采用大數(shù)據(jù)的復(fù)雜業(yè)務(wù)問題。”考慮到對數(shù)據(jù)提出正確問題的重要性,這一點(diǎn)至關(guān)重要。語境很重要,不同的人對如何看待自己的數(shù)據(jù)有不同的看法。大數(shù)據(jù)的后階段采用充滿了一些意想不到的現(xiàn)實——Hadoop是不像一些希望,廉價的實現(xiàn),企業(yè)往往不是利用商品硬件和購買昂貴的機(jī)器,和更多的,但也有一些不錯的驚喜,像這樣一個事實:大數(shù)據(jù)技術(shù)相對容易的程序。有趣的是,企業(yè)走得越遠(yuǎn),就越意識到結(jié)構(gòu)化數(shù)據(jù)是多么寶貴的財富。雖然非結(jié)構(gòu)化數(shù)據(jù)可能占到數(shù)據(jù)總量的80%,但目前還不到大數(shù)據(jù)價值的80%。正如Sicular指出的那樣,“結(jié)構(gòu)化數(shù)據(jù)經(jīng)過了改進(jìn),其密度和質(zhì)量都比同等數(shù)量的非結(jié)構(gòu)化數(shù)據(jù)高得多。”
據(jù)IDC的調(diào)查報告顯示:企業(yè)中80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增長60%。大數(shù)據(jù)就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征而已,沒有必要神話它或?qū)λ3志次分?,在以云計算為代表的技術(shù)創(chuàng)新大幕的襯托下,這些原本看起來很難收集和使用的數(shù)據(jù)開始容易被利用起來了,通過各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)會逐步為人類創(chuàng)造更多的價值。“隨著大數(shù)據(jù)技術(shù)在管理/訂購非結(jié)構(gòu)化數(shù)據(jù)方面變得越來越好,這種情況可能會隨著時間的推移而改變,但這在今天已經(jīng)成為現(xiàn)實。”所有這些都提醒我們,我們所相信的大數(shù)據(jù)可能并不真實。因此,以謙遜的態(tài)度對待大數(shù)據(jù)項目是至關(guān)重要的。





