在本節(jié)中,我們將探究集成模式的數組,每個模式都是為了提供無縫集成解決方案而定制的。這些模式作為結構化的框架,促進了不同系統(tǒng)之間的聯(lián)系和數據交換。它們大致分為三類:
1. 實時數據集成
2. 近實時數據集成
3. 批數據集成
1.實時數據集成
在各個行業(yè),實時數據攝入是一個關鍵要素。讓我們來探究一下它的實際應用實例:
· 社交媒體資料顯示最新的帖子、趨勢和活動。
· 智能家居使用實時數據來自動化任務。
· 銀行利用實時數據監(jiān)測交易和投資。
· 運輸公司利用實時數據優(yōu)化運輸路線。
· 在線零售商使用實時數據個性化購物體驗。
了解實時數據攝取機制和架構對于為組織選擇最佳方法至關重要。
實際上,有許多實時數據集成架構可供選擇。其中最常用的架構包括:
1. 流線型建筑
2. 事件驅動集成架構
3. 蘭布達建筑
4. 卡帕建筑
這些架構都提供了其獨特的優(yōu)勢和用例,滿足了特定的需求和操作需求。
A. 基于流的數據集成架構
在基于流的體系結構中,數據流在到達時會不斷被吸收。像阿帕奇卡夫卡這樣的工具被用于實時數據的收集、處理和分發(fā)。
該架構非常適合處理高速、大容量數據,同時確保數據質量和低延遲的洞察力。
以阿帕奇卡夫卡為動力的基于流程的架構使數據處理發(fā)生了革命性的變化。它涉及到持續(xù)的數據攝取、實時收集、處理和分發(fā)。這種方法有助于實時數據處理,處理大量數據,并優(yōu)先考慮數據質量和低延遲洞察力。
下圖展示了流數據集成體系結構中涉及的各個組件。
b. 事件驅動集成架構
一種?事件驅動體系結構 是一種高度可伸縮和高效的現(xiàn)代應用程序和微型服務方法。這個體系結構響應系統(tǒng)中的特定事件或觸發(fā)器,在事件發(fā)生時吸收數據,使系統(tǒng)能夠對變化作出快速反應。這樣可以有效地處理來自各種來源的大量數據。
C. 集成架構
該體系結構采用了混合方法,巧妙地融合了批處理和實時數據攝入的優(yōu)勢。它由兩個平行數據管道組成,每個管道具有不同的目的。批處理層熟練處理歷史數據的處理,而速度層快速處理實時數據。這種體系結構設計確保低延遲的洞察力,即使在廣泛的分布式系統(tǒng)中也能保持數據的準確性和一致性。
D.發(fā)展 卡帕數據集成體系結構
KPAPA體系結構是為實時數據處理而專門設計的一個簡化的LDAB體系結構。它使用一個單獨的流處理引擎,如阿帕奇弗林克或阿帕奇卡夫卡流,以管理歷史和實時數據,簡化數據攝入管道。這種方法最大限度地減少復雜性和維護費用,同時提供快速和準確的見解。
2.近實時數據集成
在幾乎實時的數據集成中,數據在生成后不久即得到處理和提供,這對于需要及時更新數據的應用程序至關重要。用于近實時數據整合的模式有幾種,其中一些突出說明如下:
A.更改數據采集-數據集成
更改數據捕捉(?疾病控制中心 )是一種捕捉源系統(tǒng)數據中發(fā)生的更改并將這些更改傳播到目標系統(tǒng)的方法。
B.數據復制-數據集成體系結構
通過數據復制集成架構,兩個數據庫可以無縫有效地復制基于特定需求的數據。這個架構確保目標數據庫與源數據庫保持同步,為兩個系統(tǒng)提供最新和一致的數據。因此,復制過程是平穩(wěn)的,可以在兩個數據庫之間進行有效的數據傳輸和同步。
C.數據虛擬化-數據集成體系結構
在數據虛擬化中,虛擬層將不同的數據源集成到一個統(tǒng)一視圖中。它消除了數據復制,基于數據位置性和性能等因素動態(tài)地將查詢路由到源系統(tǒng),并提供了一個統(tǒng)一的元數據層。虛擬層簡化了數據管理,提高了查詢性能,并便利了數據治理和高級集成場景。它賦予各組織有效利用其數據資產并釋放其全部潛力的權力。
3.批處理程序:數據集成
批數據集成涉及到在批處理中合并和傳遞消息或記錄集合,以最大限度地減少網絡流量和開銷。批處理在一段時間內收集數據,然后成批處理。當處理大量數據量或處理需要大量資源時,這種方法特別有益。此外,這個模式使主數據的復制能夠為分析目的復制存儲。這一過程的優(yōu)點是傳播精煉結果。傳統(tǒng)的批處理數據集成模式是:
傳統(tǒng)ETL架構- 數據集成架構
該架構設計堅持傳統(tǒng)的提取、轉換和負載(ETL)過程。在這個架構中,有幾個組成部分:
· 摘錄: 數據來自各種來源系統(tǒng)。
· 轉換: 數據進行轉換過程,將其轉換為所需的格式。
· 負荷: 然后將轉換后的數據加載到指定的目標系統(tǒng),如數據倉庫。
遞增批處理- 數據集成架構
這個體系結構通過只關注來自前批處理周期的新數據或修改數據來優(yōu)化處理。與全批處理相比,這種方法提高了效率,并減輕了系統(tǒng)資源的負擔。
微批量加工- 數據集成架構
在微批處理中,小批數據按定期、頻繁的間隔進行處理。它實現(xiàn)了傳統(tǒng)的批處理和實時處理之間的平衡。與傳統(tǒng)的批處理技術相比,這種方法大大降低了延遲,提供了顯著的優(yōu)勢。
按規(guī)定批處理- 數據集成架構
在這種分區(qū)批處理方法中,大量的數據集從戰(zhàn)略上分為較小的、可管理的分區(qū)。然后,這些分區(qū)可以被有效地獨立處理,經常利用并行的力量。這種方法通過大大縮短處理時間提供了令人信服的優(yōu)勢,使其成為處理大規(guī)模數據的一個有吸引力的選擇。
結論
以下是本文的要點:
· 在整合來自不同源系統(tǒng)的數據時,必須有一個強有力的數據治理框架。
· 數據集成模式的選擇應以體積、速度和準確性等用例為基礎。
· 數據集成風格有三種類型,我們應該根據不同的參數選擇合適的模型。





