日本黄色一级经典视频|伊人久久精品视频|亚洲黄色色周成人视频九九九|av免费网址黄色小短片|黄色Av无码亚洲成年人|亚洲1区2区3区无码|真人黄片免费观看|无码一级小说欧美日免费三级|日韩中文字幕91在线看|精品久久久无码中文字幕边打电话

當前位置:首頁 > 物聯(lián)網(wǎng) > 智能應用
[導讀] 大數(shù)據(jù)的系統(tǒng)架構設計主要包含3個方面ETL設計、ODS層、OLAP(聯(lián)機分析處理),重點對ETL和OLAP進行分析:

 大數(shù)據(jù)的系統(tǒng)架構設計主要包含3個方面ETL設計、ODS層、OLAP(聯(lián)機分析處理),重點對ETL和OLAP進行分析:

一、ETL設計

ETL是將各個不同的業(yè)務系統(tǒng)的數(shù)據(jù)經(jīng)過抽取(Extrace)、清洗轉換(Transform)之后加載(Load)到數(shù)據(jù)倉庫的過程,目的是將分散、零亂、標準不統(tǒng)一的數(shù)據(jù)整合到一起、為企業(yè)決策提供分析依據(jù)。例如集團公司下有多個業(yè)務線B2C官網(wǎng)、天貓京東等第三方平臺下單用戶統(tǒng)一到一個系統(tǒng)中。

ETL實現(xiàn)方式有三種:

1、借助ETL工具實現(xiàn),Informatica、Kettle、Oracle的OWB、SQL server 2000的DTS。借助工具可以快速建立ETL工程,不需要復雜的工作,但是在提高速度和降低靈活性的同時也缺少了靈活性。

2、通過SQL方式實現(xiàn),優(yōu)點是靈活但是對技術要求較高,工作量大。

3、ETL工具和SQL相結合,綜合兩種方式可以極大的提高ETL的開發(fā)速度和效率。

數(shù)據(jù)抽取

1、與存放DW的數(shù)據(jù)庫相同數(shù)據(jù)源的處理情況下,部分ETL工具有提供數(shù)據(jù)庫連接功能,DW數(shù)據(jù)庫服務器和原業(yè)務系統(tǒng)之間建立鏈接關系通過SQL查詢語句直接訪問。

2、與DW數(shù)據(jù)庫系統(tǒng)不同數(shù)據(jù)源可以通過ODBC(開發(fā)數(shù)據(jù)庫鏈接,解決異構數(shù)據(jù)庫共享而產(chǎn)生)的方式建立數(shù)據(jù)庫鏈接。也可以通過工具將元數(shù)據(jù)導出為.txt或.xls文件,也可以通過程序接口完成。如果是通過把元數(shù)據(jù)做成文件的形式,需要捋清業(yè)務類型和加載周期,不同業(yè)務類型對應不同業(yè)務線。

3、對于數(shù)據(jù)量大的系統(tǒng),必須考慮增量抽取,同時業(yè)務系統(tǒng)數(shù)據(jù)量每天每小時每分鐘都在不停的增加。業(yè)務系統(tǒng)記錄下業(yè)務發(fā)生的時間作為時間戳,這個時間戳可以作為增量標志,每次抽取之前判斷ODS中記錄的時間,根據(jù)這個時間戳來抽取數(shù)據(jù)。

數(shù)據(jù)清洗

數(shù)據(jù)清洗就是過濾掉不符合要求的數(shù)據(jù),不符合要求的數(shù)據(jù)包括:不完整數(shù)據(jù)、錯誤數(shù)據(jù)、重復數(shù)據(jù)。對于各種不符合要求的數(shù)據(jù)有不同的處理方式。

1、不完整數(shù)據(jù)如果是重要關鍵的數(shù)據(jù),可以補齊的記錄,由業(yè)務部門補齊之后在寫入數(shù)據(jù)倉庫。如果是少量非關鍵數(shù)據(jù)缺失可以忽略。有些非關鍵數(shù)據(jù)可以通過后期替換或賦值(回歸模型、決策樹模型、貝葉斯定理、隨機森林等預測缺失值的最近替代量)來彌補。

2、重復數(shù)據(jù)的清洗是一個反復的過程,在整理出一批重復數(shù)據(jù)之后,需要業(yè)務部門確定排除,同時也可以作為將來驗證數(shù)據(jù)的依據(jù)。所有工作的前提是保證不能把有效數(shù)據(jù)過濾。

3、錯誤數(shù)據(jù)分為兩種,一種是字符錯誤錯誤,例如字符串數(shù)據(jù)后面有一個回車操作,日期格式不正確等。另外一種是業(yè)務數(shù)據(jù)錯誤,例如兩個不同平臺的訂單混亂在一起。對于第一種錯誤數(shù)據(jù)通過SQL語句修正,第二種數(shù)據(jù)就需要由業(yè)務人員進行判斷。

數(shù)據(jù)轉換

需要從多個不同的業(yè)務系統(tǒng)抽取,各個不同的業(yè)務數(shù)據(jù)涉及到不同數(shù)據(jù)粒度、商務規(guī)則。

1、不一致數(shù)據(jù)轉換是一個整合過程,例如同一張訂單在CRM系統(tǒng)和結算系統(tǒng)中不同的編碼,在抽取之后需要轉換成統(tǒng)一的編碼。

2、數(shù)據(jù)粒度的轉換,不同系統(tǒng)之間的數(shù)據(jù)維度明細不一致。數(shù)據(jù)粒度影響著數(shù)據(jù)倉庫中的數(shù)據(jù)量大小,也影響著可以查詢到的數(shù)據(jù)類型。在數(shù)據(jù)量大小和查詢詳細程度之間要做出權衡。

3、商務規(guī)則不一致,不同的企業(yè)、不同的系統(tǒng)之間會有不同的數(shù)據(jù)指標。

二、ODS層設計

ODS,可操作數(shù)據(jù)庫,是存儲整個數(shù)據(jù)倉庫數(shù)據(jù)的地方,元數(shù)據(jù)經(jīng)過ETL抽取之后再到OLAP分析庫,ODS設計與DW設計著眼點不同。

步驟一:數(shù)據(jù)調(diào)研。

步驟二:確定數(shù)據(jù)范圍,在數(shù)據(jù)調(diào)研的基礎對ODS進行主題劃分,需要綜合各種業(yè)務系統(tǒng)的信息模型,進行宏觀歸并。

步驟三:定義主題元素,定義數(shù)據(jù)維度(數(shù)據(jù)維度名稱、維度成員、維度層次、維度成員之間隸屬關系)、度量、數(shù)據(jù)粒度、存儲期限。

三、OLAP設計

在介紹OLAP之前,我們需要知道OLAP(聯(lián)機分析處理)與OLTP(聯(lián)機事物處理)的區(qū)別,OLTP是傳統(tǒng)的關系型數(shù)據(jù)庫的主要應用,主要是基本的、日常的業(yè)務處理。OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應用,支持復雜的分析操作,側重點是決策支持,提供直觀易懂的查詢結果。

OLAP通過多維度來分析數(shù)據(jù),維度分析方式有鉆取、切片和切塊、旋轉。

鉆?。菏歉淖兙S的層次,變換分析的粒度。包括向下鉆取和向上鉆取,向上鉆取是在某一維上將低層次的細節(jié)概況到高層次的匯總數(shù)據(jù),或者減少維數(shù);向下則是從匯總數(shù)據(jù)深入到細節(jié)數(shù)據(jù)進行觀察或增加新維。

切片和切塊:在一部分維上選定值后,關心度量數(shù)據(jù)在剩余維上的分布。如果剩余的維只有兩個,則是切片;多個則是切塊。

旋轉:在變換維的方向之后,在表格中重新安排維的放置,如進行行列互換。

OLAP的關鍵幾個概念。

主題:全部數(shù)據(jù)對象的一個子集,它代表了某一條業(yè)務分支或者業(yè)務過程,一般而言創(chuàng)建主題是為了按照業(yè)務對象或者業(yè)務過程進行管理。

指標:指標是說明總體數(shù)量特征的概念,如GMV、在網(wǎng)用戶數(shù)等。

維度:觀察數(shù)據(jù)的特定角度,考慮為題時的一類屬性,屬性集合構成一個維度(如地域維度、時間維度、部門維度)。

維度層次:按業(yè)務的組織結構表達數(shù)據(jù)的等級關系。數(shù)據(jù)的某個特定角度下還可以存在細節(jié)程度不同的各個描述方面,如時間維度下的:日期、月份、季度等。

定時查詢:在定制好OLAP查詢后、根據(jù)用戶設定的查詢條件和查詢時間定時的執(zhí)行查詢,并可將查詢結果保存以便用戶查看。

即時查詢:定制好OLAP查詢后,用戶觸發(fā)該查詢方式,同時可以任意更改查詢的條件值,但查詢的結果是不能更改的。

數(shù)據(jù)行過濾:通過設定某列數(shù)據(jù)的顯示范圍,過濾掉不滿足的數(shù)據(jù)顯示,達到對數(shù)據(jù)過濾的目的。

數(shù)據(jù)警告:通過對數(shù)據(jù)閾值的設定,對滿足閾值設定的數(shù)據(jù)進行特殊標識,達到對異常數(shù)據(jù)報警的效果。

大數(shù)據(jù)架構設計的關鍵首要是要滿足業(yè)務需求,提煉業(yè)務需求的非功能特性,提出針對性的架構設計方案。作業(yè)自主研發(fā)能力有限的企業(yè),在大數(shù)據(jù)系統(tǒng)建設中首要是合理的選擇技術組件,如果科技力量更強可以考慮參與開源社區(qū)對組件的優(yōu)化完善等工作中。大數(shù)據(jù)系統(tǒng)架構如何設計?中琛魔方大數(shù)據(jù)表示大數(shù)據(jù)系統(tǒng)在深度自學習外,未來將通過逐步開放合作理念,對接外部第三方平臺,盡可能覆蓋用戶線上線下全生命周期行為軌跡,掌握用戶各行為觸點數(shù)據(jù),結合機器自學習功能,從根本上提升產(chǎn)品銷售能力和客戶全方位體驗感知。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權益,請及時聯(lián)系本站刪除( 郵箱:macysun@21ic.com )。
換一批
延伸閱讀
關閉