國際紙業(yè)公司擁有 55,000 名員工,年銷售額超過 210 億美元,是世界上最大的紙漿和造紙公司。大規(guī)模的生產(chǎn)也會帶來大規(guī)模的數(shù)據(jù):該公司目前跟蹤著全球 37 家工廠,近 200 萬個活躍的數(shù)據(jù)點。國際紙業(yè)公司的 PI System會產(chǎn)生大量的數(shù)據(jù),可以從這些生產(chǎn)數(shù)據(jù)中挖掘業(yè)務(wù)洞察力。通過使用 PI System工具深入研究如何收集和組織數(shù)據(jù),工程師們能夠?qū)?shù)據(jù)處理時間縮短 80% 以上,從而使公司新推出的機器學(xué)習(xí)計劃能夠更快執(zhí)行。
國際紙業(yè)訓(xùn)練機器算法,作為其“未來之戰(zhàn)”現(xiàn)代化計劃的一部分
國際紙業(yè)公司的工程師致力于高效地處理他們正在使用和生成的海量數(shù)據(jù)?!拔覀兊墓こ處焸冃枰ㄙM他們 80% 到 90%的時間來檢索和清理數(shù)據(jù),”國際紙業(yè)公司的化學(xué)工程師和流程信息經(jīng)理Rick Smith 在 OSIsoft 的 PI World 2018 舊金山大會上這樣說?!拔覀冎Ц豆べY讓他們進(jìn)行決策并改進(jìn)我們的流程。我們需要以適當(dāng)?shù)念l率向工程師提供正確的數(shù)據(jù),以便于他們工作?!?/p>
幾年前,公司在減少數(shù)據(jù)檢索時間方面做了一些努力。使用 PI OLEDB 工具后,工程師可以將 PI System 數(shù)據(jù)存檔視為關(guān)系數(shù)據(jù)庫。通過運行 SQL 查詢可以將提取出來的數(shù)據(jù)自動填充到 Microsoft Excel 電子表格中,而無需在 Excel 內(nèi)運行耗時的計算。采用這種方法后,國際紙業(yè)能夠?qū)徲嬛薪?jīng)常使用的數(shù)據(jù)檢索過程從 3-12小時縮短到 15-45 分鐘。
這是一個良好的開端,但后面還有更大的挑戰(zhàn)。2017 年,國際紙業(yè)發(fā)起了一個以數(shù)據(jù)和機器學(xué)習(xí)為核心的試點項目,作為其“未來之戰(zhàn)”現(xiàn)代化計劃的一部分。為了訓(xùn)練機器算法,工程師需要同時在數(shù)千個標(biāo)簽上提取幾年的歷史數(shù)據(jù)并將這些數(shù)據(jù)輸入機器學(xué)習(xí)引擎。
為了獲取數(shù)據(jù)檢索過程所需的時間值,Smith提出了一個他稱之為“年標(biāo)簽”的時間單位:即從單個 PI 數(shù)據(jù)標(biāo)簽中檢索一年的信息所需的時間。因為不同的標(biāo)簽收集數(shù)據(jù)的間隔不同,所以各個標(biāo)簽的“年標(biāo)簽”值不盡相同,有些甚至差異極大。
Smith 有關(guān)檢索數(shù)據(jù)所需時間的初步估計發(fā)人深省。使用 10,000 個數(shù)據(jù)標(biāo)簽一到三年的數(shù)據(jù),數(shù)據(jù)采集間隔為一分鐘,會產(chǎn)生大約 160 億行數(shù)據(jù),整個過程需要耗時數(shù)月。
“對于我們的數(shù)據(jù)標(biāo)簽,如果所有標(biāo)簽都是上面這種情形,那么讀取三年的數(shù)據(jù),將需要100 到 200 天的時間來檢索數(shù)據(jù)。我不了解其他公司的情況,但我們的副總裁可不想等待200 天才開始這個項目,” Smith 說。
國際紙業(yè)創(chuàng)建了另外的數(shù)據(jù)標(biāo)簽,每隔一分鐘而不是每隔 1-2 秒寫一次數(shù)據(jù),從而簡化了大數(shù)據(jù)機器學(xué)習(xí)的數(shù)據(jù)提取過程。
優(yōu)秀的數(shù)據(jù)管理員的價值
使用 PI System 工具,Smith 開始研究數(shù)據(jù),探索如何能減少不必要的存儲與數(shù)據(jù)處理。他發(fā)現(xiàn),在一家造紙廠,不到百分之一的數(shù)據(jù)標(biāo)簽占據(jù)了存檔空間的近 37%。對于不同類型的分析,可能需要以不同的頻率采集數(shù)據(jù)。Smith 采用 Asset framework(PI Server 的一部分)為采集頻率密集的標(biāo)簽同時設(shè)置了較低的采集頻率,以較長的間隔來收集相同的數(shù)據(jù),在確保數(shù)據(jù)存檔豐富性的同時,實現(xiàn)更快的檢索速度。
對于某些數(shù)據(jù)標(biāo)簽,密集的數(shù)據(jù)收集頻率對于存檔很重要,但并非所有分析都需要細(xì)粒度的數(shù)據(jù)。在對一組數(shù)據(jù)標(biāo)簽進(jìn)行分析時,Smith發(fā)現(xiàn),與一秒鐘間隔的數(shù)據(jù)相比,一分鐘間隔的數(shù)據(jù)其數(shù)據(jù)讀取時間可以減少 85%。
對數(shù)據(jù)進(jìn)行適當(dāng)?shù)墓芾砗徒M織,也會使數(shù)據(jù)檢索時間在原來長度的基礎(chǔ)上大幅減少。在一項分析中,Smith 使用了 50 個數(shù)據(jù)標(biāo)簽并在Asset framework 為它們構(gòu)建了一個結(jié)構(gòu),這一舉措將讀取一年數(shù)據(jù)的時間從 15 分鐘以上縮短到 5 分鐘以內(nèi)。通過使用數(shù)據(jù)平均值而不是工廠儀表上傳感器的原始值,將另一項分析的時間從 14 小時縮短到 40 秒。
仔細(xì)研究公司的數(shù)據(jù)如何生成、存儲和處理,這一工作平淡無奇,但它所產(chǎn)生的結(jié)果卻令人矚目。
“所有系統(tǒng)都需要管理者,”Smith 說。“每個人都想成為架構(gòu)師。但我們更需要腳踏實地的數(shù)據(jù)管理員。”
-
算法
+關(guān)注
關(guān)注
23文章
4784瀏覽量
98074 -
數(shù)據(jù)采集
+關(guān)注
關(guān)注
41文章
8041瀏覽量
120918 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8553瀏覽量
136962
發(fā)布評論請先 登錄
機器學(xué)習(xí)特征工程:分類變量的數(shù)值化處理方法
人工智能與機器學(xué)習(xí)在這些行業(yè)的深度應(yīng)用
機器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個常見錯誤與局限性
穿孔機頂頭檢測儀 機器視覺深度學(xué)習(xí)
思嵐科技亮相2025日本東京國際機器人展覽會
普渡樓宇配送機器人榮獲2025年IDEA國際設(shè)計卓越獎
量子機器學(xué)習(xí)入門:三種數(shù)據(jù)編碼方法對比與應(yīng)用
如何在機器視覺中部署深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)
FPGA在機器學(xué)習(xí)中的具體應(yīng)用
使用MATLAB進(jìn)行無監(jiān)督學(xué)習(xí)
【「# ROS 2智能機器人開發(fā)實踐」閱讀體驗】機器人入門的引路書
**【技術(shù)干貨】Nordic nRF54系列芯片:傳感器數(shù)據(jù)采集與AI機器學(xué)習(xí)的完美結(jié)合**
Raspberry Pi Pico 2 上實現(xiàn):實時機器學(xué)習(xí)(ML)音頻噪音抑制功能
國際紙業(yè):為機器學(xué)習(xí)魔獸饋送數(shù)據(jù)
評論