1?
什么是流處理?
流是從生產(chǎn)者到消費(fèi)者的一系列無(wú)限事件。大量數(shù)據(jù)生成為金融交易、傳感器測(cè)量或 Web 服務(wù)器日志等事件流。流處理是對(duì)接收到的新數(shù)據(jù)事件的連續(xù)處理。
Streamz 等流處理庫(kù)有助于構(gòu)建用于管理連續(xù)數(shù)據(jù)流的流程,允許應(yīng)用程序在事件發(fā)生時(shí)對(duì)其作出響應(yīng)。

流處理流程通常涉及多個(gè)操作,例如過(guò)濾、聚合、計(jì)數(shù)、分析、轉(zhuǎn)換、充實(shí)、分支、連接、流量控制、早期階段反饋、回壓和存儲(chǔ)。
2?
為何選擇流處理?
數(shù)據(jù)流的持續(xù)處理在許多應(yīng)用程序中都非常有幫助,例如:
醫(yī)療健康:持續(xù)監(jiān)控儀器數(shù)據(jù)
智慧城市:交通模式和擁塞管理
制造:優(yōu)化和預(yù)測(cè)性維護(hù)
運(yùn)輸:優(yōu)化路線和燃料消耗
汽車(chē):智能汽車(chē)
網(wǎng)絡(luò)安全和異常檢測(cè):Web 或網(wǎng)絡(luò)日志處理
金融:股票上市時(shí)間序列
機(jī)器學(xué)習(xí):實(shí)時(shí)預(yù)測(cè)
廣告:基于位置或動(dòng)作的廣告
由于各企業(yè)高度依賴實(shí)時(shí)分析、推理、監(jiān)控等功能,因此流處理市場(chǎng)正經(jīng)歷指數(shù)級(jí)發(fā)展?,F(xiàn)在,基于流構(gòu)建的服務(wù)是日常業(yè)務(wù)的核心組成部分,結(jié)構(gòu)化遙測(cè)事件和非結(jié)構(gòu)化日志正以每年超過(guò) 5 倍的速度增長(zhǎng)。在現(xiàn)代商業(yè)環(huán)境中,這種規(guī)模的大數(shù)據(jù)流愈加復(fù)雜并且難以有效地運(yùn)行,因此,經(jīng)濟(jì)高效的可靠流對(duì)其至關(guān)重要。
3?
GPU 加速流處理
NVIDIA RAPIDScuStreamz 是 GPU 加速流數(shù)據(jù)處理庫(kù),旨在加速流處理吞吐量并降低總擁有成本 (TCO)。NVIDIA 的 cuStreamz 制作流程每年可節(jié)省數(shù)十萬(wàn)美元。cuStreamz 使用 Python 編寫(xiě),基于 RAPIDS(用于數(shù)據(jù)科學(xué)庫(kù)的 GPU 加速器)而構(gòu)建。通過(guò)添加 GPU 支持的 Flink 可以看出,端到端 GPU 加速正迅速成為行業(yè)標(biāo)準(zhǔn),NVIDIA 很高興能成為此趨勢(shì)的一個(gè)組成部分。
cuStreamz 基于以下內(nèi)容構(gòu)建:
Streamz,一個(gè)能夠幫助構(gòu)建管理連續(xù)數(shù)據(jù)流流程的開(kāi)源 Python 庫(kù);
Dask,一個(gè)能夠并行處理流工作負(fù)載的穩(wěn)健可靠的調(diào)度程序;
RAPIDS,一種用于流計(jì)算的 GPU 加速庫(kù)套件。
cuStreamz 通過(guò)在后臺(tái)利用 RAPIDS cuDF 來(lái)加速 Streamz,從而使用 GPU 加速流數(shù)據(jù)計(jì)算。cuStreamz 還受益于 cuDF 的加速 JSON、Parquet 和 CSV 讀取器和寫(xiě)入器。cuStreamz 團(tuán)隊(duì)構(gòu)建了一個(gè)加速 Kafka 數(shù)據(jù)源連接器,能夠非??焖俚貙?Kafka 的數(shù)據(jù)直接讀取到 cuDF 數(shù)據(jù)幀中,從而顯著提升端到端性能。然后,可以使用 Dask 在分布式模式下并行運(yùn)行流流程,從而大規(guī)模提高性能。

在下圖中對(duì) cuStreamz 架構(gòu)進(jìn)行了概括總結(jié)。cuStreamz 是連接 Python 流與 GPU 的橋梁,應(yīng)用了檢查點(diǎn)和狀態(tài)管理等復(fù)雜可靠的流功能。cuStreamz 還提供了必要的基礎(chǔ)模塊來(lái)編寫(xiě)流作業(yè),這些作業(yè)在 GPU 上安全運(yùn)行,并且性能更好,成本更低。

4?
GPU 加速的端到端數(shù)據(jù)科學(xué)
基于 NVIDIA CUDA-X AI構(gòu)建的 RAPIDS 開(kāi)源軟件庫(kù),使您完全能夠在 GPU 上執(zhí)行端到端數(shù)據(jù)科學(xué)和分析流程。此套件依靠 NVIDIA CUDA基元進(jìn)行低級(jí)別計(jì)算優(yōu)化,但通過(guò)用戶友好型 Python 接口能夠?qū)崿F(xiàn) GPU 并行化和高帶寬顯存速度。

借助 RAPIDS GPU DataFrame,數(shù)據(jù)可以通過(guò)一個(gè)類(lèi)似 Pandas 的接口加載到 GPU 上,然后用于各種連接的機(jī)器學(xué)習(xí)和圖形分析算法,而無(wú)需離開(kāi) GPU。這種級(jí)別的互操作性是通過(guò) Apache Arrow 這樣的庫(kù)實(shí)現(xiàn)的。允許加速數(shù)據(jù)準(zhǔn)備、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等端到端流程。
RAPIDS cuML 的機(jī)器學(xué)習(xí)算法和數(shù)學(xué)基元遵循熟悉的類(lèi)似于 scikit-learn 的 API。單塊 GPU 和大型數(shù)據(jù)中心部署均支持 XGBoost 等主流算法。針對(duì)大型數(shù)據(jù)集,相較于同等功效的 CPU,這些基于 GPU 的實(shí)施方案能夠以 10 到 50 倍的速度更快地完成任務(wù)。
RAPIDS 支持在許多熱門(mén)數(shù)據(jù)科學(xué)庫(kù)之間共享設(shè)備內(nèi)存。這樣可將數(shù)據(jù)保留在 GPU 上,并省去了來(lái)回復(fù)制主機(jī)內(nèi)存的高昂成本。

*與NVIDIA產(chǎn)品相關(guān)的圖片或視頻(完整或部分)的版權(quán)均歸NVIDIA Corporation所有。
審核編輯:劉清
-
傳感器
+關(guān)注
關(guān)注
2576文章
55028瀏覽量
791240 -
加速器
+關(guān)注
關(guān)注
2文章
839瀏覽量
40097 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8553瀏覽量
136928 -
智能汽車(chē)
+關(guān)注
關(guān)注
30文章
3288瀏覽量
109507 -
GPU芯片
+關(guān)注
關(guān)注
1文章
307瀏覽量
6516
原文標(biāo)題:麗臺(tái)科普丨什么是流處理?
文章出處:【微信號(hào):Leadtek,微信公眾號(hào):麗臺(tái)科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
大科學(xué)裝置信號(hào)采集處理解決方案
實(shí)用!智能空開(kāi)過(guò)流調(diào)整步驟詳解:從原理到實(shí)操,精準(zhǔn)守護(hù)用電安全
變頻器過(guò)流現(xiàn)象及原因
(5)電路保護(hù)器件的分類(lèi)與功能要求過(guò)壓保護(hù)、過(guò)流保護(hù)
什么是反時(shí)限過(guò)流保護(hù)?深入解析反時(shí)限過(guò)流保護(hù)的應(yīng)用場(chǎng)景與優(yōu)勢(shì)
基于細(xì)胞微流控的阻抗測(cè)試解決方案
微流控芯片的封合工藝有哪些
泰克設(shè)備在微流控技術(shù)研究中的應(yīng)用
FCX3上的視頻流亂碼怎么解決?
從報(bào)錯(cuò)到修復(fù):Tek AFG31000通道1過(guò)流問(wèn)題全流程處理
FPGA EDA軟件的位流驗(yàn)證
多相流模擬仿真在核電領(lǐng)域的應(yīng)用及展望
什么是流處理?為何選擇流處理?
評(píng)論