日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當前位置:首頁 > 物聯(lián)網(wǎng) > 物聯(lián)網(wǎng)技術(shù)文庫
[導讀]   網(wǎng)絡上流傳著這么的一句流行語:“萬事不懂問度娘”。自從有了各種搜索引擎,新名詞新技術(shù)對大眾而言,已不再神秘。然而,當你搜索“大數(shù)據(jù)”或者&ld

  網(wǎng)絡上流傳著這么的一句流行語:“萬事不懂問度娘”。自從有了各種搜索引擎,新名詞新技術(shù)對大眾而言,已不再神秘。然而,當你搜索“大數(shù)據(jù)”或者“big data soluTIon”等關(guān)鍵字時,搜索出的海量相關(guān)知識鋪天蓋地,對初學者而言,仍然很難在短時間內(nèi)入門。本文目的,是以傻瓜式提問的方式讓初學者輕松的了解“大數(shù)據(jù)”。

  大數(shù)據(jù)的概念

  “大數(shù)據(jù)”,是不是----數(shù)據(jù)很大就叫大數(shù)據(jù)?

  實際上簡單的這樣理解也沒有錯,在明確定義時,會比較強調(diào)大數(shù)據(jù)的4個V的特性: Volume,Variety,Value,Velocity。也就是:

  一、數(shù)據(jù)存儲空間占用大(至PB及以上級別);

  二、數(shù)據(jù)類型繁多;

  三、價值密度低;

  四、處理速度快。

  搜索的信息中,你會發(fā)現(xiàn)有某些名詞出現(xiàn)的頻率非常高,心里也隨之會產(chǎn)生一些疑問。“PB是多大?”“Map-Reduce是啥?”“Hadoop是啥?”“大數(shù)據(jù)跟云計算啥關(guān)系?跟傳統(tǒng)意義的數(shù)據(jù)庫啥關(guān)系?”等等。

  這么多的信息量,我們還是按照大數(shù)據(jù)的基本定義,四個V來逐一梳理吧。

  從第一個V開始,Volume。

  數(shù)據(jù)量很大,到底能達到什么程度呢?先來學習一下數(shù)量級的知識吧。

  1KB(Kilobyte 千字節(jié)) = 2^10 B = 1024 B;

  1MB(Megabyte 兆字節(jié)) = 2^10 KB = 1024 KB = 2^20 B;

  1GB(Gigabyte 吉字節(jié)) = 2^10 MB = 1024 MB = 2^30 B;

  1TB(Trillionbyte 太字節(jié)) = 2^10 GB = 1024 GB = 2^40 B;

  1PB(Petabyte 拍字節(jié)) = 2^10 TB = 1024 TB = 2^50 B;

  1EB(Exabyte 艾字節(jié)) = 2^10 PB = 1024 PB = 2^60 B;

  1ZB(Zettabyte 澤字節(jié)) = 2^10 EB = 1024 EB = 2^70 B;

  1YB(YottaByte 堯字節(jié)) = 2^10 ZB = 1024 ZB = 2^80 B;

  1BB(Brontobyte ) = 2^10 YB = 1024 YB = 2^90 B;

  1NB(NonaByte ) = 2^10 BB = 1024 BB = 2^100 B;

  1DB(DoggaByte) = 2^10 NB = 1024 NB = 2^110 B;

  ……

  “哇!坑爹啊,整出這么多名詞,跟大數(shù)據(jù)都有關(guān)系嗎?需要我們掌握嗎?”別激動!其實,KB,MB,GB我們在日常電腦操作中已經(jīng)經(jīng)常碰到了。甚至TB級的大硬盤,也已經(jīng)應用于家用電腦中了。我們所說的“大數(shù)據(jù)”,目前大多產(chǎn)品還處在了立足PB展望EB的級別。后面的那些什么ZB、YB、BB、NB、 DB……等,就暫時先當他們是浮云吧~

  第二個V, Variety。

  關(guān)于這一點,百度百科里是這么說的“網(wǎng)絡日志、視頻、圖片、地理位置信息等等”。從專業(yè)一點的角度,我們可以說“大數(shù)據(jù)”中,可以有結(jié)構(gòu)化數(shù)據(jù),但更多的是大量的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。

  結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)是什么意思?

  結(jié)構(gòu)化數(shù)據(jù)是指,可以存儲在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達實現(xiàn)的數(shù)據(jù)。

  非結(jié)構(gòu)化數(shù)據(jù),是指不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等。

  而半結(jié)構(gòu)化數(shù)據(jù),就是介于完全結(jié)構(gòu)化數(shù)據(jù)(如關(guān)系型數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫中的數(shù)據(jù))和完全無結(jié)構(gòu)的數(shù)據(jù)(如聲音、圖像文件等)之間的數(shù)據(jù),HTML文檔就屬于半結(jié)構(gòu)化數(shù)據(jù)。它一般是自描述的,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起,沒有明顯的區(qū)分。

  上述的描述,其實還是有點不明確。用數(shù)據(jù)模型的列表來看,區(qū)別就更清晰一點了:

  

  第三個V,Value。

  價值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。

  第四個V,Velocity。

  處理速度快。如此龐大的數(shù)據(jù)量,需要在短時間內(nèi)迅速響應。所使用的技術(shù),當然是有別于傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)的。

  釋疑解惑

  “梳理完了四個V,咋還是云山霧罩的呢?”

  下面來回答幾個初學者可能思考到的問題吧!

  針對大數(shù)據(jù)的四個V,有沒有什么對應的技術(shù)來應對呢?

  目前,查詢“大數(shù)據(jù)”,你會發(fā)現(xiàn)度娘給出的各種信息中,Hadoop這個詞出現(xiàn)的很頻繁。而且,很多廠商提供的產(chǎn)品,也都會打上一個標簽:“**產(chǎn)品已經(jīng)并入Hadoop分布式計算平臺,以及將Hadoop引入**產(chǎn)品。”

  什么是Hadoop?

  Hadoop是由Apache基金會開發(fā)的一個分布式系統(tǒng)基礎(chǔ)架構(gòu)。它是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架。用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序,充分利用集群的威力高速運算和存儲。

  Hadoop包含了如下子項目:

  1. Hadoop Common: 在0.20及以前的版本中,包含HDFS、MapReduce和其他項目公共內(nèi)容,從0.21開始HDFS和MapReduce被分離為獨立的子項目,其余內(nèi)容為Hadoop Common

  2. HDFS: Hadoop 分布式文件系統(tǒng) (Distributed File System) - HDFS (Hadoop Distributed File System)

  3. MapReduce:并行計算框架,0.20前使用 org.apache.hadoop.mapred 舊接口,0.20版本開始引入org.apache.hadoop.mapreduce的新API

  4. HBase: 類似Google BigTable的分布式NoSQL列數(shù)據(jù)庫。

  5. Hive:數(shù)據(jù)倉庫工具,由Facebook貢獻。

  6. Zookeeper:分布式鎖設(shè)施,提供類似Google Chubby的功能,由Facebook貢獻。

  7. Avro:新的數(shù)據(jù)序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機制。

  8. Pig: 大數(shù)據(jù)分析平臺,為用戶提供多種接口。

  作為初學者,我們先撥開一些浮云,看看這里面到底有些什么。有三個主體部分,是我們需要重點關(guān)注的:HDFS、MapReduce、HBase。

  實際上,Apache Hadoop的HDFS是Google File System(GFS)的開源實現(xiàn)。MapReduce是Google MapReduce的開源實現(xiàn)。HBase是Google BigTable的開源實現(xiàn)。

  Hadoop是一個能夠讓用戶輕松架構(gòu)和使用的分布式計算平臺。它主要有以下幾個優(yōu)點:1高可靠性2高擴展性3高效性4高容錯性。用戶可以輕松地在Hadoop上開發(fā)和運行處理海量數(shù)據(jù)的應用程序。而實際上,很多公司提供的大數(shù)據(jù)產(chǎn)品也是基于Hadoop進行開發(fā)的。

  數(shù)據(jù)存儲空間占用大

  針對數(shù)據(jù)存儲空間占用大,我們需要用到的是“分布式存儲”。分布式存儲系統(tǒng),就是將數(shù)據(jù)分散存儲在多臺獨立的設(shè)備上。傳統(tǒng)的網(wǎng)絡存儲系統(tǒng)采用集中的存儲服務器存放所有數(shù)據(jù),存儲服務器成為系統(tǒng)性能的瓶頸,也是可靠性和安全性的焦點,不能滿足大規(guī)模存儲應用的需要。分布式網(wǎng)絡存儲系統(tǒng)采用可擴展的系統(tǒng)結(jié)構(gòu),利用多臺存儲服務器分擔存儲負荷,利用位置服務器定位存儲信息,它不但提高了系統(tǒng)的可靠性、可用性和存取效率,還易于擴展。

  前面我們介紹到的Hadoop,其中的HDFS就是現(xiàn)今最流行的分布式存儲平臺之一。

  HDFS原理簡要描述

  HDFS(Hadoop Distributed File System),是一個分布式文件系統(tǒng)。HDFS有著高容錯性(fault-tolerent)的特點,并且設(shè)計用來部署在低廉的(low-cost)硬件上。它提供高吞吐量(high throughput)來訪問應用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求(requirements)這樣可以實現(xiàn)流的形式訪問(streaming access)文件系統(tǒng)中的數(shù)據(jù)。

  HDFS是一個主從結(jié)構(gòu)的體系,一個HDFS集群是由一個名字節(jié)點,它是一個管理文件的命名空間和調(diào)節(jié)客戶端訪問文件的主服務器,當然還有的數(shù)據(jù)節(jié)點,一個節(jié)點一個,它來管理存儲。HDFS暴露文件命名空間和允許用戶數(shù)據(jù)存儲成文件。

  對外部客戶機而言,HDFS 就像一個傳統(tǒng)的分級文件系統(tǒng)。可以創(chuàng)建、刪除、移動或重命名文件,等等。

  內(nèi)部機制,是將一個文件分割成一個或多個的塊,這些塊存儲在一組數(shù)據(jù)節(jié)點中。名字節(jié)點(NameNode)操作文件命名空間的文件或目錄操作,如打開,關(guān)閉,重命名,等等。它同時確定塊與數(shù)據(jù)節(jié)點的映射。數(shù)據(jù)節(jié)點(DataNode)來負責來自文件系統(tǒng)客戶的讀寫請求。數(shù)據(jù)節(jié)點同時還要執(zhí)行塊的創(chuàng)建,刪除,和來自名字節(jié)點的塊復制指示。這與傳統(tǒng)的 RAID 架構(gòu)大不相同。塊的大?。ㄍǔ?64MB)和復制的塊數(shù)量在創(chuàng)建文件時由客戶機決定。NameNode 可以控制所有文件操作。

  HDFS 內(nèi)部的所有通信都基于標準的 TCP/IP 協(xié)議。

  數(shù)據(jù)類型繁多

  大數(shù)據(jù)處理,有如下需求:對數(shù)據(jù)庫高并發(fā)讀寫的需求、對海量數(shù)據(jù)的高效率存儲和訪問的需求、對數(shù)據(jù)庫的高可擴展性和高可用性的需求。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫在此類需求面前束手無策。此時,一個新的概念被引入了----NoSQL。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除( 郵箱:macysun@21ic.com )。
換一批
延伸閱讀

2026 年 3 月 31 日,華為投資控股有限公司正式發(fā)布 2025 年年度報告。

關(guān)鍵字: 華為 2025年年報 AI 云計算

全球云基礎(chǔ)設(shè)施服務支出延續(xù)多年來的強勁增長態(tài)勢。根據(jù)權(quán)威調(diào)研機構(gòu) Omdia 最新數(shù)據(jù),2025 年第四季度,全球云基礎(chǔ)設(shè)施服務支出達到1109 億美元,同比增長29%。

關(guān)鍵字: AI 云計算 算力

北京2026年3月26日 /美通社/ -- 德勤中國與亞馬遜云科技宣布進一步深化戰(zhàn)略合作,攜手推動全球化企業(yè)數(shù)智化升級,賦能跨國企業(yè)實現(xiàn)業(yè)務創(chuàng)新與可持續(xù)增長。此次合作融合亞馬遜云科技領(lǐng)先的云計算及生成式AI全棧能力,與德...

關(guān)鍵字: 亞馬遜 生成式AI 數(shù)據(jù)分析 云計算

在全球汽車產(chǎn)業(yè)向電動化、智能化轉(zhuǎn)型的浪潮中,中國電動汽車制造商憑借完整的產(chǎn)業(yè)鏈優(yōu)勢和技術(shù)創(chuàng)新能力,正從“產(chǎn)品出?!毕颉吧鷳B(tài)出?!笨缭健N锫?lián)網(wǎng)作為連接車輛、基礎(chǔ)設(shè)施、用戶與云端的核心技術(shù),打破了地域、標準與服務的邊界,通過...

關(guān)鍵字: 物聯(lián)網(wǎng) 新能源 大數(shù)據(jù)

加利福尼亞州圣何塞 —— GTC —— 太平洋時間 2026 年 3 月 16 日 ——NVIDIA 今日宣布推出 NVIDIA BlueField-4? STX 模塊化參考架構(gòu),該架構(gòu)可助力企業(yè)、云計算及 AI 服務商...

關(guān)鍵字: 存儲 云計算 AI

在數(shù)字化浪潮席卷全球的今天,云計算、大數(shù)據(jù)、人工智能等新興技術(shù)正以前所未有的速度重塑著我們的生活與工作方式。而在這些技術(shù)的背后,虛擬化技術(shù)作為基石,默默支撐著整個IT架構(gòu)的高效運轉(zhuǎn)。從大型企業(yè)的數(shù)據(jù)中心到個人電腦的虛擬機...

關(guān)鍵字: 虛擬化 大數(shù)據(jù)

北京2026年2月3日 /美通社/ -- 近期,弗若斯特沙利文(Frost & Sullivan)聯(lián)合頭豹研究院發(fā)布了《2025年在華外商企業(yè)云計算服務采用研究報告》,亞馬遜云科技憑借其全球標準一致的技術(shù)、領(lǐng)先的...

關(guān)鍵字: 云計算 亞馬遜 生成式AI 云服務

北京——2026年2月4日 從最初只能完成基礎(chǔ)問答的聊天助手,到如今不斷深入業(yè)務核心、具備自主行動能力的AI Agent,生成式AI浪潮正邁入企業(yè)創(chuàng)新的深水區(qū)。當AI開始深度介入企業(yè)運營和決策流程,企業(yè)應當如何更堅實地構(gòu)...

關(guān)鍵字: AI 云計算

2026 年開年,云計算行業(yè)迎來歷史性轉(zhuǎn)折。亞馬遜、谷歌兩大云巨頭接連官宣漲價,徹底打破了二十年來云服務價格 “只降不升” 的行業(yè)慣例。

關(guān)鍵字: AWS 谷歌 云計算

當?shù)貢r間 1 月 26 日,芯片巨頭英偉達宣布向云計算服務商 CoreWeave 追加 20 億美元(約合 139.43 億元人民幣)投資,助力其推進 2030 年前建成 50 億瓦人工智能算力基礎(chǔ)設(shè)施的計劃。

關(guān)鍵字: 英偉達 CoreWeave 芯片 云計算
關(guān)閉