【導(dǎo)讀】模型好就能碾壓一切嗎?吳恩達(dá)潑冷水,機(jī)器學(xué)習(xí)發(fā)展80%依靠數(shù)據(jù)集的進(jìn)步!這也激起了業(yè)內(nèi)對MLOps工具鏈的關(guān)注。
機(jī)器學(xué)習(xí)的進(jìn)步是模型帶來的還是數(shù)據(jù)帶來的,這可能是一個世紀(jì)辯題。 吳恩達(dá)對此的想法是,一個機(jī)器學(xué)習(xí)團(tuán)隊(duì)80%的工作應(yīng)該放在數(shù)據(jù)準(zhǔn)備上,確保數(shù)據(jù)質(zhì)量是最重要的工作,每個人都知道應(yīng)該如此做,但沒人在乎。如果更多地強(qiáng)調(diào)以數(shù)據(jù)為中心而不是以模型為中心,那么機(jī)器學(xué)習(xí)的發(fā)展會更快。
當(dāng)去arxiv上查找機(jī)器學(xué)習(xí)相關(guān)的研究時,所有模型都在圍繞基準(zhǔn)測試展示自己模型的能力,例如Google有BERT,OpenAI有GPT-3,這些模型僅解決了業(yè)務(wù)問題的20%,在業(yè)務(wù)場景中取得更好的效果需要更好的數(shù)據(jù)。 傳統(tǒng)軟件由代碼提供動力,而AI系統(tǒng)是同時使用代碼(模型+算法)和數(shù)據(jù)構(gòu)建的。以前的工作方式是,當(dāng)模型效果不理想,我們就會去修改模型,而沒有想過可能是數(shù)據(jù)的問題。 機(jī)器學(xué)習(xí)的進(jìn)步一直是由提高基準(zhǔn)數(shù)據(jù)集性能的努力所推動的。研究人員的常見做法是在嘗試改進(jìn)代碼的同時保持?jǐn)?shù)據(jù)固定,以模型改進(jìn)為中心對模型性能的提升實(shí)際上效率是很低的。但是,當(dāng)數(shù)據(jù)集大小適中(<10,000個示例)時,則需要在代碼上進(jìn)行嘗試改進(jìn)。 ?

根據(jù)劍橋研究人員所做的一項(xiàng)研究,最重要但仍經(jīng)常被忽略的問題是數(shù)據(jù)的格式不統(tǒng)一。當(dāng)數(shù)據(jù)從不同的源流式傳輸時,這些源可能具有不同的架構(gòu),不同的約定及其存儲和訪問數(shù)據(jù)的方式。對于機(jī)器學(xué)習(xí)工程師來說,這是一個繁瑣的過程,需要將信息組合成適合機(jī)器學(xué)習(xí)的單個數(shù)據(jù)集。 小數(shù)據(jù)的劣勢在于少量的噪聲數(shù)據(jù)就會影響模型效果,而大數(shù)據(jù)量則會使標(biāo)注工作變得很困難,高質(zhì)量的標(biāo)簽也是機(jī)器學(xué)習(xí)模型的瓶頸所在。 這番話也引起機(jī)器學(xué)習(xí)界對MLOps的重新思索。
MLOps是什么? MLOps,即Machine Learning和Operations的組合,是ModelOps的子集,是數(shù)據(jù)科學(xué)家與操作專業(yè)人員之間進(jìn)行協(xié)作和交流以幫助管理機(jī)器學(xué)習(xí)任務(wù)生命周期的一種實(shí)踐。

與DevOps或DataOps方法類似,MLOps希望提高自動化程度并提高生產(chǎn)ML的質(zhì)量,同時還要關(guān)注業(yè)務(wù)和法規(guī)要求。 互聯(lián)網(wǎng)公司通常用有大量的數(shù)據(jù),而如果在缺少數(shù)據(jù)的應(yīng)用場景中進(jìn)行部署AI時,例如農(nóng)業(yè)場景 ,你不能指望自己有一百萬臺拖拉機(jī)為自己收集數(shù)據(jù)。 基于MLOps,吳恩達(dá)也提出幾點(diǎn)建議:
MLOps的最重要任務(wù)是提供高質(zhì)量數(shù)據(jù)。
標(biāo)簽的一致性也很重要。檢驗(yàn)標(biāo)簽是否有自己所管轄的明確界限,即使標(biāo)簽的定義是好的,缺乏一致性也會導(dǎo)致模型效果不佳。
系統(tǒng)地改善baseline模型上的數(shù)據(jù)質(zhì)量要比追求具有低質(zhì)量數(shù)據(jù)的最新模型要好。
如果訓(xùn)練期間出現(xiàn)錯誤,那么應(yīng)當(dāng)采取以數(shù)據(jù)為中心的方法。
如果以數(shù)據(jù)為中心,對于較小的數(shù)據(jù)集(<10,000個樣本),則數(shù)據(jù)容量上存在很大的改進(jìn)空間。
當(dāng)使用較小的數(shù)據(jù)集時,提高數(shù)據(jù)質(zhì)量的工具和服務(wù)至關(guān)重要。
一致性的數(shù)據(jù)定義,涵蓋所有邊界情況,從生產(chǎn)數(shù)據(jù)中得到及時的反饋,數(shù)據(jù)集大小合適。 吳恩達(dá)同時建議不要指望工程師去嘗試改善數(shù)據(jù)集。相反,他希望ML社區(qū)開發(fā)更多MLOps工具,以幫助產(chǎn)生高質(zhì)量的數(shù)據(jù)集和AI系統(tǒng),并使他們具有可重復(fù)性。除此之外,MLOps是一個新生領(lǐng)域,MLOps團(tuán)隊(duì)的最重要目標(biāo)應(yīng)該是確保整個項(xiàng)目各個階段的高質(zhì)量和一致的數(shù)據(jù)流。
一些MLOps的工具已經(jīng)取得了不錯的成績。 Alteryx處于自助數(shù)據(jù)分析運(yùn)動的最前沿。公司的平臺“ Designer”旨在快速發(fā)現(xiàn)、準(zhǔn)備和分析客戶的詳細(xì)信息。該工具用于易于使用的界面,用戶可以連接和清除數(shù)據(jù)倉庫。Alteryx的工具還包括空間文件的數(shù)據(jù)混合,可以將其附加到其他第三方數(shù)據(jù)。
Paxata提供自適應(yīng)的信息平臺,它具有靈活的部署和自助操作。它使分析人員和數(shù)據(jù)科學(xué)家可以收集多個原始數(shù)據(jù)集,并將它們轉(zhuǎn)換成有價值的信息,這些信息可以立即轉(zhuǎn)換為執(zhí)行模型訓(xùn)練所需要的格式。該平臺是基于所見即所得設(shè)計(jì),具有電子表格風(fēng)格的數(shù)據(jù)展示,因此用戶無需學(xué)習(xí)新工具。此外,該平臺能夠提供算法協(xié)助以推斷所收集數(shù)據(jù)的含義。 TIBCO軟件最近在這個快速發(fā)展的領(lǐng)域中嶄露頭角。它允許用戶連接、清理、合并和整理來自不同來源的數(shù)據(jù),其中還包括大數(shù)據(jù)存儲。該軟件使用戶可以通過簡單的在線數(shù)據(jù)整理進(jìn)行數(shù)據(jù)分析,并且提供完整的API支持,可以根據(jù)自己的個性化需求進(jìn)行更改。
網(wǎng)友表示,吳恩達(dá)老師說的太真實(shí)了!

也有網(wǎng)友表示,機(jī)器學(xué)習(xí)更像是數(shù)據(jù)分析,模型的搭建就是構(gòu)建pipelines。

責(zé)任編輯:lq
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8554瀏覽量
136979 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1236瀏覽量
26202 -
吳恩達(dá)
+關(guān)注
關(guān)注
0文章
26瀏覽量
7356
原文標(biāo)題:吳恩達(dá)的二八定律:80%的數(shù)據(jù)+20%的模型=更好的機(jī)器學(xué)習(xí)
文章出處:【微信號:vision263com,微信公眾號:新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
江智機(jī)器人技術(shù)核心團(tuán)隊(duì)
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個常見錯誤與局限性
深度解讀恩智浦MCX微控制器產(chǎn)品組合
工業(yè)數(shù)據(jù)采集的真相:99%的企業(yè)都走錯了第一步
派恩杰SiC器件在數(shù)據(jù)中心中的應(yīng)用
局放在線監(jiān)測方法的優(yōu)勢
當(dāng)不同的數(shù)據(jù)放在同一個Flash頁面上時,請問如何在不影響其他數(shù)據(jù)的情況下更改一些單獨(dú)的數(shù)據(jù)?
入行嵌入式應(yīng)該怎么準(zhǔn)備?
工業(yè)機(jī)器人的特點(diǎn)
邊緣計(jì)算中的機(jī)器學(xué)習(xí):基于 Linux 系統(tǒng)的實(shí)時推理模型部署與工業(yè)集成!
【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】機(jī)器人入門的引路書
SOLIDWORKS 2025教育版有效的數(shù)據(jù)管理與團(tuán)隊(duì)協(xié)作
**【技術(shù)干貨】Nordic nRF54系列芯片:傳感器數(shù)據(jù)采集與AI機(jī)器學(xué)習(xí)的完美結(jié)合**
Raspberry Pi Pico 2 上實(shí)現(xiàn):實(shí)時機(jī)器學(xué)習(xí)(ML)音頻噪音抑制功能
深度解讀英偉達(dá)Newton機(jī)器人平臺:技術(shù)革新與跨界生態(tài)構(gòu)建
吳恩達(dá):一個機(jī)器學(xué)習(xí)團(tuán)隊(duì)80%的工作應(yīng)該放在數(shù)據(jù)準(zhǔn)備上
評論