91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

超實(shí)用的任務(wù)優(yōu)化與斷點(diǎn)執(zhí)行方案

Android編程精選 ? 來(lái)源:個(gè)推技術(shù)實(shí)踐 ? 作者:淵虹 ? 2021-07-05 16:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前言

隨著大數(shù)據(jù)時(shí)代的快速發(fā)展,企業(yè)每天需要存儲(chǔ)、計(jì)算、分析數(shù)以萬(wàn)億的數(shù)據(jù),同時(shí)還要確保分析的數(shù)據(jù)具備及時(shí)性、準(zhǔn)確性和完整性。面對(duì)如此龐大的數(shù)據(jù)體系,ETL工程師(數(shù)據(jù)分析師)如何能高效、準(zhǔn)確地進(jìn)行計(jì)算并供業(yè)務(wù)方使用,就成了一個(gè)難題。

作為一家數(shù)據(jù)智能公司,個(gè)推在大數(shù)據(jù)計(jì)算領(lǐng)域沉淀了豐富的經(jīng)驗(yàn)。本篇文章將對(duì)大數(shù)據(jù)離線計(jì)算過(guò)程中出現(xiàn)的任務(wù)緩慢和任務(wù)中斷這兩大痛點(diǎn)問(wèn)題提出解決思路,期望讀者能夠有所收獲。

一、任務(wù)緩慢

“任務(wù)執(zhí)行緩慢”通常是指任務(wù)的執(zhí)行時(shí)間超過(guò)10個(gè)小時(shí),且不能滿(mǎn)足數(shù)據(jù)使用方對(duì)數(shù)據(jù)及時(shí)性的要求。比如業(yè)務(wù)方需早上就能夠查看T-1的數(shù)據(jù),但是因?yàn)槿蝿?wù)延時(shí),業(yè)務(wù)方只能等到下午或者傍晚才能查詢(xún)、瀏覽T-1的數(shù)據(jù),從而無(wú)法及時(shí)發(fā)現(xiàn)經(jīng)營(yíng)問(wèn)題、進(jìn)行高效決策。因此,對(duì)緩慢任務(wù)進(jìn)行優(yōu)化成了ETL工程師必不可少的一項(xiàng)工作。

在長(zhǎng)期的大數(shù)據(jù)實(shí)踐中,我們發(fā)現(xiàn),緩慢任務(wù)往往具有一定的共性。只要我們能找到問(wèn)題所在,并對(duì)癥下藥,就能將任務(wù)執(zhí)行時(shí)間大大縮短。個(gè)推將任務(wù)執(zhí)行緩慢的常見(jiàn)問(wèn)題歸納為以下四點(diǎn):邏輯冗余,數(shù)據(jù)傾斜、大表復(fù)用,慢執(zhí)行器。接下來(lái)會(huì)對(duì)每個(gè)痛點(diǎn)進(jìn)行詳細(xì)闡述。

1、邏輯冗余

“邏輯冗余”往往是因?yàn)镋TL工程師進(jìn)行數(shù)據(jù)處理和計(jì)算時(shí)更關(guān)注處理結(jié)果是否滿(mǎn)足預(yù)期,而未深入考慮是否存在更高效的處理方式,導(dǎo)致原本可通過(guò)簡(jiǎn)單邏輯進(jìn)行處理的任務(wù),在實(shí)際中卻使用了復(fù)雜邏輯來(lái)執(zhí)行。

減少“邏輯冗余”更多地依賴(lài)開(kāi)發(fā)者經(jīng)驗(yàn)的積累和邏輯思維以及代碼能力的提升。這里分享一些高級(jí)函數(shù),希望能夠幫助開(kāi)發(fā)者進(jìn)一步提升數(shù)據(jù)處理效率。

Grouping sets

分組統(tǒng)計(jì)函數(shù)。這個(gè)函數(shù)可以實(shí)現(xiàn)在一段SQL中輸出不同維度的統(tǒng)計(jì)數(shù)據(jù),避免出現(xiàn)執(zhí)行多段SQL的情況,具體寫(xiě)法如下:

358e8860-d55e-11eb-9e57-12bb97331649.png

Lateral view explode()

一行轉(zhuǎn)多行函數(shù)。這個(gè)函數(shù)只能處理array格式數(shù)據(jù),需要配合split()函數(shù)使用,具體寫(xiě)法如下:

3677624c-d55e-11eb-9e57-12bb97331649.png

還有其他一些函數(shù)、函數(shù)名及功能如下,具體用法需要讀者自行查詢(xún)(可登錄hive官網(wǎng)查詢(xún)函數(shù)大全):

find_in_set() :查找特定字符串在指定字符串中的位置

get_json_object():從json串中抽取指定數(shù)據(jù)

regexp_extract():抽取符合正則表達(dá)的指定字符

regexp_replace() :替換符合正則替換指定字符

reverse():字符串反轉(zhuǎn)

2、數(shù)據(jù)傾斜

“數(shù)據(jù)傾斜”是指在MR計(jì)算的過(guò)程中某些Map job需要處理的數(shù)據(jù)量太大、耗時(shí)太長(zhǎng),從而導(dǎo)致整個(gè)進(jìn)程長(zhǎng)時(shí)間無(wú)法結(jié)束,任務(wù)處理進(jìn)度長(zhǎng)時(shí)間卡在99%的現(xiàn)象。

針對(duì)數(shù)據(jù)傾斜的情況,開(kāi)發(fā)者們可通過(guò)代碼層面進(jìn)行修改,具體操作如下:

使用group by方式替換count(distinct id ) 方式進(jìn)行去重統(tǒng)計(jì)

進(jìn)行大小表關(guān)聯(lián)時(shí)使用mapjoin操作或子查詢(xún)操作,來(lái)替換 join操作

group by出現(xiàn)傾斜需要將分組字段值隨機(jī)切分成隨機(jī)值+原始值

join操作避免出現(xiàn)笛卡爾積,即關(guān)聯(lián)字段不要出現(xiàn)大量重復(fù)

3、大表復(fù)用

“大表復(fù)用”,是指對(duì)上億甚至幾十億的大表數(shù)據(jù)進(jìn)行重復(fù)遍歷之后得到類(lèi)似的結(jié)果。避免大表復(fù)用就要求ETL工程師進(jìn)行系統(tǒng)化的思考,能夠通過(guò)低頻的遍歷將幾十億的大表數(shù)據(jù)瘦身到可重復(fù)使用的中間小表,且同時(shí)支持后續(xù)的計(jì)算。

因此,工程師需要在工程開(kāi)發(fā)之初就將整體的工程結(jié)構(gòu)考慮進(jìn)去,并且堅(jiān)持“大表僅使用一次”的原則,以提升整個(gè)工程的執(zhí)行效率。

這里介紹一個(gè)實(shí)戰(zhàn)中的例子,供讀者參考:

36838676-d55e-11eb-9e57-12bb97331649.png

geqi_win_tmp表中數(shù)據(jù):5000萬(wàn)

4、慢執(zhí)行器

“慢執(zhí)行器”是指數(shù)據(jù)體量過(guò)于龐大時(shí),Hive的底層計(jì)算邏輯已經(jīng)無(wú)法快速遍歷單一分區(qū)中的所有數(shù)據(jù)。

由于在同等資源的情況下,Spark進(jìn)行數(shù)據(jù)遍歷的效率遠(yuǎn)高于MapReduce;且Spark任務(wù)對(duì)資源的搶占程度遠(yuǎn)大于MapReduce任務(wù),可在短時(shí)間內(nèi)占用大量資源高效完成任務(wù),之后快速釋放資源,以提高整個(gè)集群任務(wù)的執(zhí)行效率。

因此,針對(duì)該情況,開(kāi)發(fā)者可考慮使用pyspark等更為高效的計(jì)算引擎進(jìn)行數(shù)據(jù)的快速遍歷。同時(shí),開(kāi)發(fā)者也需要有意識(shí)地加強(qiáng)思維訓(xùn)練,養(yǎng)成良好的開(kāi)發(fā)習(xí)慣,在面對(duì)海量數(shù)據(jù)時(shí)探索更快、更準(zhǔn)、更體系化的計(jì)算和處理方式。

二、任務(wù)中斷

因?yàn)楦鞣N各樣的原因,線上任務(wù)經(jīng)常會(huì)出現(xiàn)被kill掉然后重新執(zhí)行的情況。任務(wù)重新執(zhí)行會(huì)嚴(yán)重浪費(fèi)集群資源,同時(shí)使得數(shù)據(jù)計(jì)算結(jié)果延遲從而影響到業(yè)務(wù)方的數(shù)據(jù)應(yīng)用。如何避免這種現(xiàn)象的發(fā)生呢?個(gè)推是這樣解決該問(wèn)題的。

個(gè)推的定時(shí)任務(wù)是基于Azkaban調(diào)度系統(tǒng)開(kāi)發(fā)的,個(gè)推的數(shù)據(jù)分析師主要使用shell、HSQL、MySQL、Pypark四種代碼進(jìn)行數(shù)據(jù)處理,將原始日志清洗、計(jì)算,然后生成公共層、報(bào)表層數(shù)據(jù),最終供業(yè)務(wù)方使用。

因此個(gè)推需要設(shè)定四種代碼執(zhí)行器以支持腳本中對(duì)不同類(lèi)型代碼的處理。這里主要對(duì)其中的三個(gè)核心內(nèi)容進(jìn)行介紹:代碼塊輸入、執(zhí)行函數(shù)以及循環(huán)器。

1、代碼塊輸入

一般情況下,腳本中的shell、HSQL、MySQL、pypark代碼會(huì)按照順序直接執(zhí)行,不能選擇性執(zhí)行。在實(shí)踐中,我們將代碼塊以字符串的方式賦值給shell中的變量,并在字符串的開(kāi)頭標(biāo)記是何種類(lèi)型的代碼,代碼執(zhí)行到具體步驟時(shí)只有賦值操作,不會(huì)解析執(zhí)行,具體如下:

? 執(zhí)行HSQL代碼塊

36d0d5a2-d55e-11eb-9e57-12bb97331649.png

? 執(zhí)行shell代碼塊

36dda980-d55e-11eb-9e57-12bb97331649.png

? 執(zhí)行mysql代碼塊

36eb8d48-d55e-11eb-9e57-12bb97331649.png

? 執(zhí)行pyspark代碼塊

36f7b424-d55e-11eb-9e57-12bb97331649.png

如此,就實(shí)現(xiàn)了將不同的代碼放入對(duì)應(yīng)的step_n中。在后續(xù)的執(zhí)行器中這些代碼能夠直接執(zhí)行,開(kāi)發(fā)者只需要關(guān)心邏輯處理即可。

2、執(zhí)行函數(shù)

執(zhí)行函數(shù)是對(duì)shell中變量step_n當(dāng)中的字符串進(jìn)行代碼解析并執(zhí)行。不同類(lèi)型的代碼塊解析方式不同,因此需要定義不同的執(zhí)行函數(shù)。函數(shù)一般單獨(dú)放在整個(gè)工程的配置文件中,通過(guò)source的方式調(diào)用,具體函數(shù)定義如下:

3703effa-d55e-11eb-9e57-12bb97331649.png

Hive、MySQL以及shell的執(zhí)行函數(shù)比較簡(jiǎn)單,通過(guò)hive-e 或者eval的方式就可以直接執(zhí)行。pyspark需要配置相應(yīng)的隊(duì)列、路徑、參數(shù)等,還需要在工程中增spark.py文件才能執(zhí)行,此處不做贅述。

3、循環(huán)器

循環(huán)器是斷點(diǎn)執(zhí)行功能的核心內(nèi)容,是步驟的控制器。循環(huán)器通過(guò)判斷shell變量名確定需要執(zhí)行哪一步,通過(guò)判斷變量中字符串內(nèi)容確定使用何種函數(shù)解析代碼并執(zhí)行。

下圖是參考案例,代碼如下:

37159a0c-d55e-11eb-9e57-12bb97331649.png

開(kāi)發(fā)者需要在腳本的開(kāi)始定義好整個(gè)代碼的結(jié)束步驟,以確保循環(huán)器正常運(yùn)行;同時(shí),可將開(kāi)始步驟當(dāng)作腳本參數(shù)傳入,這樣就很好地實(shí)現(xiàn)了任務(wù)的斷點(diǎn)執(zhí)行功能。

總結(jié)

ETL工程中的任務(wù)緩慢和任務(wù)中斷問(wèn)題是每個(gè)大數(shù)據(jù)工程師都需要面對(duì)和解決的。本文基于個(gè)推大數(shù)據(jù)實(shí)踐,針對(duì)任務(wù)緩慢和任務(wù)中斷問(wèn)題提出了相應(yīng)解決思路和方案,希望能夠幫助讀者在任務(wù)優(yōu)化以及ETL工程開(kāi)發(fā)方面擴(kuò)寬思路,提高任務(wù)執(zhí)行效率,同時(shí)降低任務(wù)維護(hù)的人力成本和機(jī)器成本。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 存儲(chǔ)
    +關(guān)注

    關(guān)注

    13

    文章

    4791

    瀏覽量

    90061
  • SQL
    SQL
    +關(guān)注

    關(guān)注

    1

    文章

    789

    瀏覽量

    46700
  • ETL
    ETL
    +關(guān)注

    關(guān)注

    0

    文章

    25

    瀏覽量

    10118
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4417

    瀏覽量

    67507
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    9063

    瀏覽量

    143751

原文標(biāo)題:ETL工程師必看!超實(shí)用的任務(wù)優(yōu)化與斷點(diǎn)執(zhí)行方案

文章出處:【微信號(hào):AndroidPush,微信公眾號(hào):Android編程精選】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于蜂鳥(niǎo)E203的硬件斷點(diǎn)功能添加

    Hardware Trigger Module中即包含Trigger Register用于支持硬件斷點(diǎn)。設(shè)置硬件斷點(diǎn)后,斷點(diǎn)信息存儲(chǔ)于硬件斷點(diǎn)寄存器內(nèi),程序
    發(fā)表于 10-23 07:11

    工業(yè)網(wǎng)關(guān)的斷點(diǎn)續(xù)傳有哪些作用

    工業(yè)網(wǎng)關(guān)的斷點(diǎn)續(xù)傳功能在工業(yè)場(chǎng)景中具有重要作用,它通過(guò)在數(shù)據(jù)傳輸中斷后能夠從中斷點(diǎn)繼續(xù)傳輸,而非重新開(kāi)始,顯著提升了數(shù)據(jù)傳輸?shù)目煽啃?、效率和靈活性。以下是其核心作用及具體應(yīng)用場(chǎng)景的詳細(xì)分析: 1.
    的頭像 發(fā)表于 10-10 13:58 ?561次閱讀

    UPS電源“不間斷點(diǎn)”全解析:技術(shù)原理、關(guān)鍵指標(biāo)與選購(gòu)避坑指南

    的UPS解決方案。一、不間斷點(diǎn)的本質(zhì):毫秒級(jí)切換背后的技術(shù)博弈“不間斷點(diǎn)”是UPS的核心價(jià)值標(biāo)簽,指市電異常時(shí),UPS輸出電力無(wú)感知切換(零延遲)的能力。其技術(shù)目
    的頭像 發(fā)表于 09-23 08:49 ?1140次閱讀
    UPS電源“不間<b class='flag-5'>斷點(diǎn)</b>”全解析:技術(shù)原理、關(guān)鍵指標(biāo)與選購(gòu)避坑指南

    MES - 制造執(zhí)行系統(tǒng)

    : 制藥業(yè):遵守嚴(yán)格的法規(guī)和質(zhì)量標(biāo)準(zhǔn) 醫(yī)療技術(shù):確保最高精度和質(zhì)量 航空航天業(yè):優(yōu)化復(fù)雜的制造流程 安全行業(yè):嚴(yán)格的文檔和質(zhì)量要求 那么,在這些領(lǐng)域中,MES 又能完成哪些具體任務(wù)呢?制造執(zhí)行
    發(fā)表于 09-04 15:36

    Task任務(wù):LuatOS實(shí)現(xiàn)“任務(wù)級(jí)并發(fā)”的核心引擎

    Task任務(wù)通過(guò)其強(qiáng)大的并發(fā)處理能力,使LuatOS能夠在單線程環(huán)境中模擬多線程執(zhí)行,通過(guò)協(xié)程的掛起與恢復(fù)機(jī)制,實(shí)現(xiàn)任務(wù)級(jí)的并行操作,顯著提升系統(tǒng)效能。 sys核心庫(kù)是LuatOS運(yùn)行框架庫(kù),也是
    的頭像 發(fā)表于 08-28 13:49 ?510次閱讀
    Task<b class='flag-5'>任務(wù)</b>:LuatOS實(shí)現(xiàn)“<b class='flag-5'>任務(wù)</b>級(jí)并發(fā)”的核心引擎

    鴻蒙5開(kāi)發(fā)寶藏案例分享---Web加載時(shí)延優(yōu)化解析

    鴻蒙開(kāi)發(fā)寶藏:Web加載完成時(shí)延優(yōu)化實(shí)戰(zhàn) 大家好呀!今天在翻鴻蒙開(kāi)發(fā)者文檔時(shí),發(fā)現(xiàn)了一個(gè)隱藏的 性能優(yōu)化寶藏區(qū) ——官方竟然悄悄提供了多實(shí)戰(zhàn)案例!尤其是****Web加載完成時(shí)延分析這塊,簡(jiǎn)直是
    發(fā)表于 06-12 17:11

    鴻蒙5開(kāi)發(fā)寶藏案例分享---性能優(yōu)化案例解析

    發(fā)現(xiàn)問(wèn)題 : // 頁(yè)面初始化時(shí)同步執(zhí)行耗時(shí)操作 aboutToAppear() { initData(); // 耗時(shí)2s的同步操作 } 優(yōu)化方案 : // 拆分為異步任務(wù)
    發(fā)表于 06-12 16:36

    HarmonyOS優(yōu)化應(yīng)用文件上傳下載慢問(wèn)題性能優(yōu)化

    (一)文件上傳 對(duì)于大文件斷點(diǎn)續(xù)傳上傳,本文采用request(上傳下載)模塊中的request.agent任務(wù)托管接口,可以自動(dòng)實(shí)現(xiàn)暫停繼續(xù)重試等操作,無(wú)需手動(dòng)將文件分片和記錄上傳分片信息。流程圖
    發(fā)表于 05-28 15:06

    工控一體機(jī)多線程任務(wù)調(diào)度優(yōu)化:聚徽分享破解工業(yè)復(fù)雜流程高效協(xié)同密碼

    在當(dāng)今工業(yè) 4.0 的浪潮下,工業(yè)生產(chǎn)正朝著高度自動(dòng)化、智能化的方向大步邁進(jìn)。生產(chǎn)流程日益復(fù)雜,眾多任務(wù)需要同時(shí)、高效地協(xié)同執(zhí)行,這對(duì)工業(yè)控制系統(tǒng)的核心 —— 工控一體機(jī)提出了前所未有的挑戰(zhàn)。多線程
    的頭像 發(fā)表于 05-28 14:06 ?635次閱讀

    HarmonyOS優(yōu)化應(yīng)用文件上傳下載慢問(wèn)題性能優(yōu)化

    參考該工程。 (三)文件上傳 對(duì)于大文件斷點(diǎn)續(xù)傳上傳,本文采用request(上傳下載)模塊中的request.agent任務(wù)托管接口,可以自動(dòng)實(shí)現(xiàn)暫停繼續(xù)重試等操作,無(wú)需手動(dòng)將文件分片和記錄上傳分片
    發(fā)表于 05-27 16:19

    邊緣計(jì)算網(wǎng)關(guān)支持斷點(diǎn)續(xù)傳嗎

    邊緣計(jì)算網(wǎng)關(guān)通常支持斷點(diǎn)續(xù)傳功能 。斷點(diǎn)續(xù)傳功能是邊緣計(jì)算網(wǎng)關(guān)的重要特性之一,它能夠在網(wǎng)絡(luò)中斷或設(shè)備故障時(shí),將采集到的數(shù)據(jù)暫存在本地存儲(chǔ)空間中,待網(wǎng)絡(luò)恢復(fù)后再將數(shù)據(jù)上傳至云平臺(tái),從而保證數(shù)據(jù)的完整性
    的頭像 發(fā)表于 05-27 15:25 ?777次閱讀

    HarmonyOS優(yōu)化應(yīng)用文件上傳下載慢問(wèn)題性能優(yōu)化

    查詢(xún)指定任務(wù)信息、用戶(hù)查詢(xún)指定隱藏任務(wù)信息、系統(tǒng)查詢(xún)指定任務(wù)信息、系統(tǒng)清理指定任務(wù)等。 任務(wù)自動(dòng)恢復(fù):網(wǎng)絡(luò)條件不滿(mǎn)足時(shí)
    發(fā)表于 05-26 15:50

    HarmonyOS優(yōu)化應(yīng)用文件上傳下載慢問(wèn)題性能優(yōu)化

    參考該工程。 (三)文件上傳 對(duì)于大文件斷點(diǎn)續(xù)傳上傳,本文采用request(上傳下載)模塊中的request.agent任務(wù)托管接口,可以自動(dòng)實(shí)現(xiàn)暫停繼續(xù)重試等操作,無(wú)需手動(dòng)將文件分片和記錄上傳分片
    發(fā)表于 05-22 10:54

    使用串口dma環(huán)形接收+空閑中斷,觸發(fā)空閑中斷后進(jìn)入任務(wù)中拷貝數(shù)據(jù)發(fā)現(xiàn)拷貝的數(shù)據(jù)全為0,怎么處理?

    求助,我使用串口dma環(huán)形接收+空閑中斷,默認(rèn)應(yīng)該開(kāi)了緩存,在觸發(fā)空閑中斷后進(jìn)入任務(wù)中拷貝數(shù)據(jù)發(fā)現(xiàn)拷貝的數(shù)據(jù)全為0,但是我掛上調(diào)試之后在拷貝之前只要打上斷點(diǎn)斷一次執(zhí)行之后再執(zhí)行就正常了
    發(fā)表于 03-27 06:17

    【干貨】LLC設(shè)計(jì)指導(dǎo)-PI方案(經(jīng)典版)

    LLC設(shè)計(jì)指導(dǎo)-PI方案(經(jīng)典版) 部分內(nèi)容截取......(如果內(nèi)容有幫助麻煩回帖支持一下哦~) 獲取完整文檔資料可下載附件哦?。。。?/div>
    發(fā)表于 03-13 14:17