ETL工程師:
Extraction-Transformation-Loading的縮寫,中文名稱為數(shù)據(jù)抽取、轉(zhuǎn)換和加載。
ETL負責將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。
ETL是數(shù)據(jù)倉庫中的非常重要的一環(huán)。它是承前啟后的必要的一步。相對于關(guān)系數(shù)據(jù)庫,數(shù)據(jù)倉庫技術(shù)沒有嚴格的數(shù)學理論基礎(chǔ),它更面向?qū)嶋H工程應用。所以從工程應用的角度來考慮,按著物理數(shù)據(jù)模型的要求加載數(shù)據(jù)并對數(shù)據(jù)進行一些系列處理,處理過程與經(jīng)驗直接相關(guān),同時這部分的工作直接關(guān)系數(shù)據(jù)倉庫中數(shù)據(jù)的質(zhì)量,從而影響到聯(lián)機分析處理和數(shù)據(jù)挖掘的結(jié)果的質(zhì)量。
數(shù)據(jù)倉庫是一個獨立的數(shù)據(jù)環(huán)境,需要通過抽取過程將數(shù)據(jù)從聯(lián)機事務處理環(huán)境、外部數(shù)據(jù)源和脫機的數(shù)據(jù)存儲介質(zhì)導入到數(shù)據(jù)倉庫中;在技術(shù)上,ETL主要涉及到關(guān)聯(lián)、轉(zhuǎn)換、增量、調(diào)度和監(jiān)控等幾個方面;數(shù)據(jù)倉庫系統(tǒng)中數(shù)據(jù)不要求與聯(lián)機事務處理系統(tǒng)中數(shù)據(jù)實時同步,所以ETL可以定時進行。但多個ETL的操作時間、順序和成敗對數(shù)據(jù)倉庫中信息的有效性至關(guān)重要。
數(shù)據(jù)挖掘工程師:
數(shù)據(jù)挖掘(Data Mining),又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單的說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識。
并非所有的信息發(fā)現(xiàn)任務都被視為數(shù)據(jù)挖掘。例如,使用數(shù)據(jù)庫管理系統(tǒng)查找個別的記錄,或通過因特網(wǎng)的搜索引擎查找特定的Web頁面,則是信息檢索(information retrieval)領(lǐng)域的任務。雖然這些任務是重要的,可能涉及使用復雜的算法和數(shù)據(jù)結(jié)構(gòu),但是它們主要依賴傳統(tǒng)的計算機科學技術(shù)和數(shù)據(jù)的明顯特征來創(chuàng)建索引結(jié)構(gòu),從而有效地組織和檢索信息。盡管如此,數(shù)據(jù)挖掘技術(shù)也已用來增強信息檢索系統(tǒng)的能力。
-
工程師
+關(guān)注
關(guān)注
59文章
1603瀏覽量
71084
發(fā)布評論請先 登錄
生成式AI賦能工程師挖掘非結(jié)構(gòu)化數(shù)據(jù)價值
什么是BSP工程師
想成為硬件工程師?我教你??!你得先學會這些...... #硬件工程師 #電子工程師 #電子愛好者 #電子行業(yè)
硬件工程師看了只會找個角落默默哭泣#硬件工程師 #MDD #MDD辰達半導體 #產(chǎn)品經(jīng)理 #軟件工程師
ETL工程師和數(shù)據(jù)挖掘工程師有什么區(qū)別
評論