91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Lambda數(shù)據(jù)架構和Kappa數(shù)據(jù)架構——構建現(xiàn)代數(shù)據(jù)架構

虹科網(wǎng)絡可視化技術 ? 2023-11-26 08:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

如何更好地構建我們的數(shù)據(jù)處理架構,如何對IT系統(tǒng)中的遺留問題進行現(xiàn)代化改造并將其轉變?yōu)楝F(xiàn)代數(shù)據(jù)架構?該怎么為你的需求匹配最適合的架構設計呢,本文將分析兩種最流行的基于速度的數(shù)據(jù)架構,為你提供一些思路。

文章速覽:

什么是數(shù)據(jù)架構?

基于速度的數(shù)據(jù)架構

Lambda數(shù)據(jù)架構

Kappa數(shù)據(jù)架構

探索數(shù)據(jù)流模型

結語

一、什么是數(shù)據(jù)架構?

數(shù)據(jù)架構是企業(yè)架構中的一個元素,繼承了企業(yè)架構的主要屬性:流程、策略、變更管理和評估權衡。根據(jù)Open Group架構框架,數(shù)據(jù)架構是對“企業(yè)主要數(shù)據(jù)類型、來源、邏輯數(shù)據(jù)資產(chǎn)、物理數(shù)據(jù)資產(chǎn)和數(shù)據(jù)管理資源的結構和交互” 的描述。

根據(jù)數(shù)據(jù)管理知識體系,數(shù)據(jù)架構是“識別企業(yè)的數(shù)據(jù)需求(無論結構如何)并設計和維護核心藍圖以滿足這些需求”的過程。它使用核心藍圖來指導數(shù)據(jù)集成、控制數(shù)據(jù)資產(chǎn)并使數(shù)據(jù)投資與業(yè)務戰(zhàn)略保持一致。

然而,糟糕的數(shù)據(jù)架構是僵化且過度集中的。它使用了錯誤的工具來完成工作,這阻礙了開發(fā)和變更管理。

二、基于速度的數(shù)據(jù)架構

數(shù)據(jù)速度是指數(shù)據(jù)生成的速度、數(shù)據(jù)移動的速度以及將其處理為可用指導的速度。

根據(jù)處理數(shù)據(jù)的速度,數(shù)據(jù)架構通常分為兩類:Lambda和Kappa。

Lambda數(shù)據(jù)架構?

1.什么是Lambda

Lambda數(shù)據(jù)架構由Apache Storm的創(chuàng)建者Nathan Marz于 2011 年開發(fā),旨在解決大規(guī)模實時數(shù)據(jù)處理的挑戰(zhàn)。術語 Lambda 源自lambda演算 (λ),描述了在多個節(jié)點上并行運行分布式計算的函數(shù)。Lambda數(shù)據(jù)架構提供了一個可擴展、容錯且靈活的系統(tǒng)來處理大量數(shù)據(jù)。它允許以混合方式訪問批處理和流處理方法。

2.Lambda架構的使用場景

1)當您有各種工作負載和速度要求時,Lambda架構是理想的選擇。由于它可以處理大量數(shù)據(jù)并提供低延遲查詢結果,因此適合儀表板和報告等實時分析應用程序。Lambda架構對于批處理(清理、轉換、數(shù)據(jù)聚合)、流處理任務(事件處理、開發(fā)機器學習模型、異常檢測、欺詐預防)以及構建集中存儲庫(稱為“數(shù)據(jù)湖”)非常有用。

2)Lambda架構的關鍵區(qū)別在于,它使用兩個獨立的處理系統(tǒng)來處理不同類型的數(shù)據(jù)處理工作負載。第一個是批處理系統(tǒng),它將結果存儲在集中式數(shù)據(jù)存儲(例如數(shù)據(jù)倉庫或數(shù)據(jù)湖)中。第二個系統(tǒng)是流處理系統(tǒng),它在數(shù)據(jù)到達時實時處理數(shù)據(jù)并將結果存儲在分布式數(shù)據(jù)存儲中。

3.Lambda架構的組成

Lambda架構由攝取層、批處理層、速度層(或流層)和服務層組成。

·批處理層:批處理層處理大量歷史數(shù)據(jù)并將結果存儲在集中式數(shù)據(jù)存儲中,例如數(shù)據(jù)倉庫或分布式文件系統(tǒng)。該層使用Hadoop或Spark等框架進行高效的數(shù)據(jù)處理,使其能夠提供所有可用數(shù)據(jù)的總體視圖。

·速度層:速度層處理高速數(shù)據(jù)流,并使用Apache Flink或Apache Storm等事件處理引擎提供最新的信息視圖。該層處理傳入的實時數(shù)據(jù)并將結果存儲在分布式數(shù)據(jù)存儲中,例如消息隊列或NoSQL數(shù)據(jù)庫。

·服務層:無論底層處理系統(tǒng)如何,Lambda架構服務層對于為用戶提供一致的數(shù)據(jù)訪問體驗至關重要。它在支持需要快速訪問當前信息(例如儀表板和分析)的實時應用程序方面發(fā)揮著重要作用。

4.Lambda架構的使用場景

Lambda架構解決了計算任意函數(shù)的問題,系統(tǒng)必須評估任何給定輸入的數(shù)據(jù)處理函數(shù)(無論是慢動作還是實時)。此外,它還提供容錯功能,確保在一個系統(tǒng)出現(xiàn)故障或不可用時,任一系統(tǒng)的結果都可以用作另一個系統(tǒng)的輸入。在高吞吐量、低延遲和近實時應用程序中,這種架構的效率是很明顯的。

69ded9a4-8bef-11ee-9788-92fbcf53809c.png

Lambda架構示意圖

5、Lambda架構的缺點

Lambda架構提供了許多優(yōu)勢,例如可擴展性、容錯性以及處理各種數(shù)據(jù)處理工作負載(批處理和流)的靈活性。但它也有缺點:

·Lambda架構很復雜,它使用多種技術堆棧來處理和存儲數(shù)據(jù)。

·設置和維護可能具有挑戰(zhàn)性,尤其是在資源有限的組織中。

·每個階段的批處理和速度層中都會重復底層邏輯。這種重復有一個代價:數(shù)據(jù)差異。因為盡管具有相同的邏輯,但一層與另一層的實現(xiàn)不同。因此,錯誤/錯誤的概率較高,并且您可能會遇到批處理層和速度層的不同結果。

Kappa數(shù)據(jù)架構?

2014年,Jay Kreps指出了Lambda架構的一些缺點。這次討論使大數(shù)據(jù)社區(qū)找到了一種使用更少代碼資源的替代方案——Kappa數(shù)據(jù)架構。

1、什么是Kappa數(shù)據(jù)架構

Kappa(以希臘字母 ? 命名,在數(shù)學中用于表示循環(huán))背后的主要思想是單個技術堆棧可用于實時和批量數(shù)據(jù)處理。該名稱反映了該體系結構對連續(xù)數(shù)據(jù)處理或再處理的重視,而不是基于批處理的方法。

Kappa 的核心依賴于流式架構。傳入數(shù)據(jù)首先存儲在事件流日志中。然后,它由流處理引擎(例如 Kafka)連續(xù)實時處理或攝取到另一個分析數(shù)據(jù)庫或業(yè)務應用程序中。這樣做需要使用各種通信范例,例如實時、近實時、批處理、微批處理和請求響應等。

2、Kappa數(shù)據(jù)架構的組成

數(shù)據(jù)重新處理是 Kappa的一項關鍵要求,使源端的任何更改對結果的影響可見。因此,Kappa 架構僅由兩層組成:流處理層和服務層。

在Kappa架構中,只有一層處理層:流處理層。該層負責采集、處理和存儲直播數(shù)據(jù)。這種方法消除了對批處理系統(tǒng)的需要。相反,它使用先進的流處理引擎(例如 Apache Flink、Apache Storm、Apache Kafka 或 Apache Kinesis)來處理大量數(shù)據(jù)流并提供對查詢結果的快速、可靠的訪問。

流處理層有兩個組件:

·攝取組件:該層從各種來源收集傳入數(shù)據(jù),例如日志、數(shù)據(jù)庫事務、傳感器和 API。數(shù)據(jù)被實時攝取并存儲在分布式數(shù)據(jù)存儲中,例如消息隊列或NoSQL數(shù)據(jù)庫。

·處理組件:該組件處理大量數(shù)據(jù)流并提供對查詢結果的快速可靠的訪問。它使用事件處理引擎(例如 Apache Flink 或 Apache Storm)來實時處理傳入數(shù)據(jù)和歷史數(shù)據(jù)(來自存儲區(qū)域),然后將信息存儲到分布式數(shù)據(jù)存儲中。

對于幾乎所有用例,實時數(shù)據(jù)都勝過非實時數(shù)據(jù)。盡管如此,Kappa架構不應該被視為 Lambda 架構的替代品。反之,在不需要批處理層的高性能來滿足標準服務質量的情況下,您應該考慮 Kappa架構。

3、Kappa架構的優(yōu)勢

Kappa架構旨在提供可擴展、容錯且靈活的系統(tǒng),用于實時處理大量數(shù)據(jù)。它使用單一技術堆棧來處理實時和歷史工作負載,并將所有內容視為流。Kappa 架構的主要動機是避免為批處理層和速度層維護兩個獨立的代碼庫(管道)。這使得它能夠提供更加精簡的數(shù)據(jù)處理管道,同時仍然提供對查詢結果的快速可靠訪問。

69ff2240-8bef-11ee-9788-92fbcf53809c.png

Kappa架構示意圖

4、Kappa架構的缺點

Kappa架構承諾可擴展性、容錯性和簡化的管理。然而,它也有缺點。

· Kappa架構理論上比 Lambda更簡單,但對于不熟悉流處理框架的企業(yè)來說,技術上仍然可能很復雜。

· 擴展事件流平臺時的基礎設施成本。在事件流平臺中存儲大量數(shù)據(jù)可能成本高昂,并會引發(fā)其他可擴展性問題,尤其是當數(shù)據(jù)量達到TB或PB級時。

· 事件時間和處理時間之間的滯后不可避免地會產(chǎn)生數(shù)據(jù)延遲。因此,Kappa 架構需要一套機制來解決這個問題,例如水印、狀態(tài)管理、重新處理或回填。

探索數(shù)據(jù)流模型?

1、為什么會出現(xiàn)數(shù)據(jù)流模型

Lambda和Kappa試圖通過集成本質上不兼容的復雜工具來克服2010年代Hadoop生態(tài)系統(tǒng)的缺點。這兩種方法都難以解決協(xié)調批處理和流數(shù)據(jù)的根本挑戰(zhàn)。然而,Lambda和Kappa 為進一步的改進提供了靈感和基礎。

統(tǒng)一多個代碼路徑是管理批處理和流處理的一項重大挑戰(zhàn)。即使有了Kappa架構的統(tǒng)一隊列和存儲層,開發(fā)人員也需要使用不同的工具來收集實時統(tǒng)計數(shù)據(jù)并運行批量聚合作業(yè)。今天,他們正在努力應對這一挑戰(zhàn)。

2、什么是數(shù)據(jù)流模型

數(shù)據(jù)流模型的基本前提是將所有數(shù)據(jù)視為事件并在不同類型的窗口上執(zhí)行聚合。實時事件流是無界數(shù)據(jù),而批量數(shù)據(jù)是具有自然窗口的有界事件流。

6a148bf8-8bef-11ee-9788-92fbcf53809c.png

窗口模式示意圖

數(shù)據(jù)工程師可以選擇不同的窗口,例如滑動窗口或會話窗口,以進行實時聚合。數(shù)據(jù)流模型允許使用幾乎相同的代碼在同一系統(tǒng)內進行實時和批處理。

“批處理作為流處理的一個特例”的想法已經(jīng)變得越來越普遍,F(xiàn)link和Spark等框架也采用了類似的方法。

結語

當然,關于速度模型的數(shù)據(jù)架構討論還有另一個用處:適合物聯(lián)網(wǎng) (IoT) 的設計選擇,在本篇文章中,我們就不再贅述。如何最好地構建我們處理數(shù)據(jù)的架構,如何對僵化且緩慢的IT遺留系統(tǒng),進行現(xiàn)代化改造并將其轉變?yōu)楝F(xiàn)代數(shù)據(jù)架構,顯然,關于這個問題還尚未有定論。歡迎與我們共同探討。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)

    關注

    8

    文章

    7335

    瀏覽量

    94778
  • 架構
    +關注

    關注

    1

    文章

    532

    瀏覽量

    26590
  • 虹科電子
    +關注

    關注

    0

    文章

    759

    瀏覽量

    15302
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    零信任架構賦能芯片制造:安全共享數(shù)據(jù),破解協(xié)作風險!

    架構已成為新設備部署與數(shù)據(jù)分析平臺搭建的硬性要求:客戶亟需通過這一架構達成雙重目標,既保障敏感數(shù)據(jù)安全,又能選擇性地與合作伙伴共享數(shù)據(jù);幾乎
    的頭像 發(fā)表于 12-11 16:37 ?1102次閱讀
    零信任<b class='flag-5'>架構</b>賦能芯片制造:安全共享<b class='flag-5'>數(shù)據(jù)</b>,破解協(xié)作風險!

    vsan數(shù)據(jù)恢復—VSAN超融合架構:供電異常的vsan數(shù)據(jù)恢復案例

    Vsan是一種可擴展的分布式存儲架構,這種存儲架構區(qū)別于其他存儲架構的地方在于由vsan進行管理和控制的vsan存儲層。另外vsan分布式存儲還提供有安全容災機制,如果單臺主機故障不會影響整個存儲,所以一旦vsan存儲故障
    的頭像 發(fā)表于 12-04 16:17 ?692次閱讀

    RDMA設計5:RoCE V2 IP架構

    上面分析,基于RoCE v2 高速數(shù)據(jù)傳輸IP 的高速傳輸應用整體架構如圖 1 所示。 圖1 基于RoCE V2 IP應用的系統(tǒng)整體架構圖 它通過 QSFP28 接口連接上位機進行數(shù)據(jù)
    發(fā)表于 11-25 10:34

    芯源MCU架構是不是基本都是ARM架構?還有其他的架構嗎?

    芯源MCU架構是不是基本都是ARM架構?還有其他的架構嗎?
    發(fā)表于 11-20 06:21

    modbus消息幀的模塊化架構介紹

    MODBUS消息幀的模塊化架構 1. 地址字段:通信尋址的核心 Modbus RTU協(xié)議采用單字節(jié)(8位)地址字段,支持1-247個從站設備(0保留為廣播地址)。 廣播機制:地址0的報文會被所有從站
    發(fā)表于 11-17 08:15

    工業(yè)互聯(lián)網(wǎng)架構是怎么樣的

    工業(yè)互聯(lián)網(wǎng)架構是支撐工業(yè)全要素、全產(chǎn)業(yè)鏈、全價值鏈互聯(lián)互通的核心框架,通過“數(shù)據(jù)+算力+模型”驅動工業(yè)智能化轉型。其體系架構通常分為 網(wǎng)絡層、平臺層、安全層 三大核心層級,并延伸至應用生態(tài)與標準體系
    的頭像 發(fā)表于 10-18 09:37 ?653次閱讀

    賦能人工智能未來:ADI宣布支持800 VDC數(shù)據(jù)中心架構

    , Inc. (ADI)推出創(chuàng)新解決方案,為數(shù)據(jù)中心下一代800 VDC架構提供有力支持。該系列解決方案包含高可靠性熱插拔與一級電源產(chǎn)品,旨在實現(xiàn)安全、高效且智能的配電,精準滿足現(xiàn)代AI工廠系統(tǒng)的供電需求。 賦能人工智能未來:A
    的頭像 發(fā)表于 08-28 21:18 ?1066次閱讀
    賦能人工智能未來:ADI宣布支持800 VDC<b class='flag-5'>數(shù)據(jù)</b>中心<b class='flag-5'>架構</b>

    深入剖析RabbitMQ高可用架構設計

    在微服務架構中,消息隊列故障導致的系統(tǒng)不可用率高達27%!如何構建一個真正可靠的消息中間件架構?本文將深入剖析RabbitMQ高可用設計的核心要點。
    的頭像 發(fā)表于 08-18 11:19 ?958次閱讀

    宏集分享 | 集中式架構還是分布式架構?SCADA架構選型的新趨勢

    HongraxIIoT在工業(yè)數(shù)字化不斷推進的今天,SCADA系統(tǒng)早已不僅是簡單的數(shù)據(jù)監(jiān)控工具,它正在成為保障企業(yè)運行效率、安全性和業(yè)務連續(xù)性的戰(zhàn)略核心。而“選擇集中式、分布式還是混合式架構?”也正
    的頭像 發(fā)表于 08-08 18:15 ?668次閱讀
    宏集分享 | 集中式<b class='flag-5'>架構</b>還是分布式<b class='flag-5'>架構</b>?SCADA<b class='flag-5'>架構</b>選型的新趨勢

    同一水平的 RISC-V 架構的 MCU,和 ARM 架構的 MCU 相比,運行速度如何?

    ARM 架構與 RISC-V 架構的 MCU 在同一性能水平下的運行速度對比,需從架構設計原點、指令集特性及實際測試數(shù)據(jù)展開剖析。以 ARM Cortex-M33 這類 ARMv8M
    的頭像 發(fā)表于 07-02 10:29 ?1475次閱讀
    同一水平的 RISC-V <b class='flag-5'>架構</b>的 MCU,和 ARM <b class='flag-5'>架構</b>的 MCU 相比,運行速度如何?

    多節(jié)點并行處理架構

    多節(jié)點并行處理架構(如MPP架構)通過分布式計算和存儲實現(xiàn)高性能數(shù)據(jù)處理,其核心設計及典型應用如下: 一、核心架構特征 非共享架構(Shar
    的頭像 發(fā)表于 06-12 08:18 ?625次閱讀
    多節(jié)點并行處理<b class='flag-5'>架構</b>

    GPU架構深度解析

    GPU架構深度解析從圖形處理到通用計算的進化之路圖形處理單元(GPU),作為現(xiàn)代計算機中不可或缺的一部分,已經(jīng)從最初的圖形渲染專用處理器,發(fā)展成為強大的并行計算引擎,廣泛應用于人工智能、科學計算
    的頭像 發(fā)表于 05-30 10:36 ?1857次閱讀
    GPU<b class='flag-5'>架構</b>深度解析

    Arm架構何以成為現(xiàn)代計算的基礎

    2025 年 4 月,Arm 架構迎來了問世 40 周年。這個始于英國劍橋一隅、懷揣雄心壯志的項目,如今已成為全球廣泛采用的計算架構。從傳感器、智能手機、筆記本電腦,到汽車、數(shù)據(jù)中心等諸多領域,有數(shù)十億設備如今運行在 Arm
    的頭像 發(fā)表于 05-20 10:02 ?1198次閱讀

    汽車電氣架構中的電源架構

    隨著汽車電子化、智能化的快速發(fā)展,汽車電氣架構(E/E架構)已成為現(xiàn)代汽車的核心技術之一。
    的頭像 發(fā)表于 03-29 11:25 ?1005次閱讀

    NVIDIA Blackwell數(shù)據(jù)手冊與NVIDIA Blackwell架構技術解析

    NVIDIA Blackwell數(shù)據(jù)手冊與NVIDIA Blackwell 架構技術解析
    的頭像 發(fā)表于 03-20 17:19 ?2469次閱讀