91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何克服機器學(xué)習(xí)面臨的數(shù)據(jù)挑戰(zhàn)?

我快閉嘴 ? 來源:千家網(wǎng) ? 作者:千家網(wǎng) ? 2020-07-07 09:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

眾所周知,數(shù)據(jù)對于機器學(xué)習(xí)的重要性。了解數(shù)據(jù)訪問模式將幫助數(shù)據(jù)科學(xué)家確定適合其項目的正確存儲基礎(chǔ)架構(gòu)。數(shù)據(jù)基礎(chǔ)架構(gòu)使機器學(xué)習(xí)成為可能。然而,一旦開始使用,機器學(xué)習(xí)就面臨著關(guān)鍵的數(shù)據(jù)挑戰(zhàn),需要首先解決:

質(zhì)量

稀疏性

完整性

接下來,讓我們深入研究其中的每一個,以便大家了解如何克服機器學(xué)習(xí)的這些挑戰(zhàn):

1. 質(zhì)量

許多數(shù)據(jù)科學(xué)家希望利用外部來源的數(shù)據(jù)。然而,通常沒有質(zhì)量控制或保證如何捕獲原始數(shù)據(jù)。

你相信外部數(shù)據(jù)的準(zhǔn)確性嗎?

這是一個很好的例子。漂浮在海洋中的浮標(biāo)上的傳感器收集有關(guān)海洋溫度的數(shù)據(jù)。但是,當(dāng)傳感器無法收集溫度時,它將記錄為999。此外,在2000年之前,僅用兩個數(shù)字記錄了年份的數(shù)字。但是在2000年之后,記錄的數(shù)字變?yōu)榱怂膫€。

因此,我們需要了解數(shù)據(jù)的質(zhì)量以及如何準(zhǔn)備數(shù)據(jù)。在這種情況下,分析浮標(biāo)數(shù)據(jù)的科學(xué)家可以使用平均值、均值、最小值、最大值來可視化原始數(shù)據(jù),捕獲這些數(shù)據(jù)庫錯誤并相應(yīng)地對其進(jìn)行清理。

2. 稀疏性

在這種情況下,稀疏適用于元數(shù)據(jù)。通常,元數(shù)據(jù)字段不完整,有些字段已填寫,有些字段留空。如果數(shù)據(jù)是從單一來源生成的,則可能是由于人類缺乏規(guī)范或知識所致。但是,如果數(shù)據(jù)來自各種來源,而沒有元數(shù)據(jù)的標(biāo)準(zhǔn)定義,則每個數(shù)據(jù)集可能具有完全不同的字段。因此,將它們組合在一起時,完成的字段可能不對應(yīng)。

當(dāng)前,關(guān)于捕獲哪些元數(shù)據(jù)沒有行業(yè)標(biāo)準(zhǔn)。然而,元數(shù)據(jù)與數(shù)據(jù)本身一樣重要。當(dāng)您具有填充了不同元數(shù)據(jù)字段的相同類型的數(shù)據(jù)時,如何關(guān)聯(lián)和過濾數(shù)據(jù)?

如果以浮標(biāo)為例,初始數(shù)據(jù)傳感器每十分鐘收集一次水溫,而較新的浮標(biāo)每三分鐘收集一次水溫。關(guān)聯(lián)數(shù)據(jù)的唯一方法是通過元數(shù)據(jù)在捕獲時公開。當(dāng)科學(xué)家進(jìn)行歷史分析時,他們需要元數(shù)據(jù)以便能夠相應(yīng)地調(diào)整其模型。

3. 完整性

數(shù)據(jù)完整性是數(shù)據(jù)準(zhǔn)確性和一致性的保證。數(shù)據(jù)保管鏈對于證明數(shù)據(jù)在流水線和位置中移動時不會受到損害至關(guān)重要。當(dāng)數(shù)據(jù)的捕獲和攝取受到控制時,您可以相對輕松地驗證其完整性。但是,與他人合作時,很難進(jìn)行驗證。生成數(shù)據(jù)時,沒有用于外部數(shù)據(jù)的安全證書。您也不能確保數(shù)據(jù)記錄完全符合預(yù)期,也不能確保接收到的數(shù)據(jù)與原始記錄時完全相同。

關(guān)于物聯(lián)網(wǎng)數(shù)據(jù)和區(qū)塊鏈存在一些有趣的概念,但是,在廣泛采用這種概念之前,數(shù)據(jù)完整性取決于安全技術(shù)和策略的結(jié)合。例如,由于數(shù)據(jù)在靜態(tài)或傳輸過程中可能會受到威脅,因此通過網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)應(yīng)使用https,并且在靜態(tài)時應(yīng)進(jìn)行加密。另一方面,訪問控制應(yīng)受策略驅(qū)動,以避免人為錯誤。

如何開始?

數(shù)據(jù)質(zhì)量、稀疏性和完整性直接影響最終模型的準(zhǔn)確性,并且是當(dāng)今機器學(xué)習(xí)面臨的一些比較大的挑戰(zhàn)。擁有清晰數(shù)據(jù)定義,政策并探索行業(yè)特定數(shù)據(jù)標(biāo)準(zhǔn)的組織將在短期和長期項目中受益。

如果您還沒有,那么您的組織應(yīng)該首先定義自己的數(shù)據(jù)收集策略,元數(shù)據(jù)格式,然后應(yīng)用標(biāo)準(zhǔn)的安全技術(shù)。數(shù)據(jù)質(zhì)量和稀疏性齊頭并進(jìn)。下一步,設(shè)置元數(shù)據(jù)策略,并確保可以使用捕獲的定性數(shù)據(jù)來驗證數(shù)據(jù)的有效性。最后,為了確保數(shù)據(jù)完整性,可以在生成數(shù)據(jù)時應(yīng)用數(shù)字證書,應(yīng)該在傳輸過程中強制使用SSL,并且始終保持啟用加密狀態(tài)。

安全數(shù)據(jù)協(xié)作

如果您所在的行業(yè)需要與外部組織不斷交換數(shù)據(jù),那么最好開放您的數(shù)據(jù)和元格式的源代碼,因為這些標(biāo)準(zhǔn)比許多專有標(biāo)準(zhǔn)更廣泛。更好的是,您可以發(fā)起一個行業(yè)開放標(biāo)準(zhǔn)委員會,讓其他人參與和貢獻(xiàn)。一個很好的例子是“開放目標(biāo)”,這是一種“公私合作伙伴關(guān)系,利用人類遺傳學(xué)和基因組學(xué)數(shù)據(jù)進(jìn)行系統(tǒng)的藥物靶點識別和優(yōu)先排序?!?/p>

尤其是研究數(shù)據(jù)生態(tài)系統(tǒng)已經(jīng)變得高度復(fù)雜,組織內(nèi)部和外部的合作者需要快速訪問數(shù)據(jù)以及簡化數(shù)據(jù)管理的方法。機器學(xué)習(xí)的挑戰(zhàn)很多。第一步是使用正確的數(shù)據(jù)和基礎(chǔ)結(jié)構(gòu)啟動項目。
責(zé)任編輯:tzh

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 傳感器
    +關(guān)注

    關(guān)注

    2577

    文章

    55355

    瀏覽量

    793286
  • 物聯(lián)網(wǎng)
    +關(guān)注

    關(guān)注

    2948

    文章

    48027

    瀏覽量

    417456
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    67

    文章

    8560

    瀏覽量

    137157
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    四足機器面臨的熱管理與散熱挑戰(zhàn):持續(xù)運行的隱形障礙

    下面用專業(yè)且貼近工程實際的方式,把四足機器狗的熱管理與散熱挑戰(zhàn)拆透——它之所以被稱為「持續(xù)運行的隱形障礙」,是因為不爆炸、不報錯、不明顯卡機,卻會悄悄讓機器狗降功率、斷續(xù)航、折壽命、無法連續(xù)作業(yè)
    的頭像 發(fā)表于 02-14 11:20 ?537次閱讀
    四足<b class='flag-5'>機器</b>狗<b class='flag-5'>面臨</b>的熱管理與散熱<b class='flag-5'>挑戰(zhàn)</b>:持續(xù)運行的隱形障礙

    芯片可靠性面臨哪些挑戰(zhàn)

    芯片可靠性是一門研究芯片如何在規(guī)定的時間和環(huán)境條件下保持正常功能的科學(xué)。它關(guān)注的核心不是芯片能否工作,而是能在高溫、高電壓、持續(xù)運行等壓力下穩(wěn)定工作多久。隨著晶體管尺寸進(jìn)入納米級別,芯片內(nèi)部猶如一個承受著巨大電、熱、機械應(yīng)力考驗的微觀世界,其可靠性面臨著原子尺度的根本性挑戰(zhàn)
    的頭像 發(fā)表于 01-20 15:32 ?488次閱讀
    芯片可靠性<b class='flag-5'>面臨</b>哪些<b class='flag-5'>挑戰(zhàn)</b>

    機器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個常見錯誤與局限性

    無論你是剛?cè)腴T還是已經(jīng)從事人工智能模型相關(guān)工作一段時間,機器學(xué)習(xí)和深度學(xué)習(xí)中都存在一些我們需要時刻關(guān)注并銘記的常見錯誤。如果對這些錯誤置之不理,日后可能會引發(fā)諸多麻煩!只要我們密切關(guān)注數(shù)據(jù)
    的頭像 發(fā)表于 01-07 15:37 ?302次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b>中需避免的 7 個常見錯誤與局限性

    基于ETAS嵌入式AI工具鏈將機器學(xué)習(xí)模型部署到量產(chǎn)ECU

    AI在汽車行業(yè)的應(yīng)用日益深化,如何將機器學(xué)習(xí)領(lǐng)域的先進(jìn)模型(如虛擬傳感器)集成到ECU軟件中,已成為業(yè)界面臨的核心挑戰(zhàn)。
    的頭像 發(fā)表于 12-24 10:55 ?6305次閱讀
    基于ETAS嵌入式AI工具鏈將<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>模型部署到量產(chǎn)ECU

    亞太地區(qū)AI數(shù)據(jù)中心可持續(xù)發(fā)展面臨重重挑戰(zhàn)

    當(dāng)Chat GPT每秒“吞吐”數(shù)萬次請求、自動駕駛汽車毫秒級解析路況、AI大模型訓(xùn)練一口“吞”掉百萬度電時,我們正親歷著一場由“算力浪潮”驅(qū)動的科技革命;與此同時,一個嚴(yán)峻的現(xiàn)實問題也浮出水面:強大的AI背后是對電力的極度渴求,算力增長與能源約束之間的矛盾已成為全球面臨的關(guān)鍵挑戰(zhàn)
    的頭像 發(fā)表于 12-10 10:24 ?1290次閱讀
    亞太地區(qū)AI<b class='flag-5'>數(shù)據(jù)</b>中心可持續(xù)發(fā)展<b class='flag-5'>面臨</b>重重<b class='flag-5'>挑戰(zhàn)</b>

    克服全車以太網(wǎng)汽車架構(gòu)中的 QoS 挑戰(zhàn)

    這份報告由雷諾Ampere汽車公司和RTaW公司在2025年10月15日法國圖盧茲舉辦的IEEEEthernet&IP@AutomotiveTechnologyDay上聯(lián)合發(fā)表,主題為“OvercomingQoSChallengesinaFullAutomotiveEthernetArchitecture(克服全車
    發(fā)表于 10-29 15:47 ?1次下載

    開發(fā)無線通信系統(tǒng)所面臨的設(shè)計挑戰(zhàn)

    的設(shè)計面臨多種挑戰(zhàn)。為了解決這些挑戰(zhàn),業(yè)界逐漸采用創(chuàng)新的技術(shù)解決方案,例如高效調(diào)變與編碼技術(shù)、動態(tài)頻譜管理、網(wǎng)狀網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)以及先進(jìn)的加密通信協(xié)議。此外,模塊化設(shè)計、可升級架構(gòu)與邊緣計算的結(jié)合,為系統(tǒng)帶來更高的靈活性與未來發(fā)展?jié)?/div>
    的頭像 發(fā)表于 10-01 15:15 ?1w次閱讀

    量子機器學(xué)習(xí)入門:三種數(shù)據(jù)編碼方法對比與應(yīng)用

    在傳統(tǒng)機器學(xué)習(xí)數(shù)據(jù)編碼確實相對直觀:獨熱編碼處理類別變量,標(biāo)準(zhǔn)化調(diào)整數(shù)值范圍,然后直接輸入模型訓(xùn)練。整個過程更像是數(shù)據(jù)清洗,而非核心算法組件。量子
    的頭像 發(fā)表于 09-15 10:27 ?897次閱讀
    量子<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>入門:三種<b class='flag-5'>數(shù)據(jù)</b>編碼方法對比與應(yīng)用

    AI 驅(qū)動三維逆向:點云降噪算法工具與機器學(xué)習(xí)建模能力的前沿應(yīng)用

    在三維逆向工程領(lǐng)域,傳統(tǒng)方法在處理復(fù)雜數(shù)據(jù)和構(gòu)建高精度模型時面臨諸多挑戰(zhàn)。隨著人工智能(AI)技術(shù)的發(fā)展,點云降噪算法工具與機器學(xué)習(xí)建模能力
    的頭像 發(fā)表于 08-20 10:00 ?820次閱讀
    AI 驅(qū)動三維逆向:點云降噪算法工具與<b class='flag-5'>機器</b><b class='flag-5'>學(xué)習(xí)</b>建模能力的前沿應(yīng)用

    利用NVIDIA Cosmos模型訓(xùn)練通用機器

    機器人領(lǐng)域的一大核心挑戰(zhàn)在于如何讓機器人掌握新任務(wù),而無需針對每個新任務(wù)和環(huán)境耗費大量精力收集和標(biāo)注數(shù)據(jù)集。NVIDIA 的最新研究方案通過生成式 AI、世界基礎(chǔ)模型(如 NVIDIA
    的頭像 發(fā)表于 08-05 16:22 ?2218次閱讀
    利用NVIDIA Cosmos模型訓(xùn)練通用<b class='flag-5'>機器</b>人

    FOPLP工藝面臨挑戰(zhàn)

    FOPLP 技術(shù)目前仍面臨諸多挑戰(zhàn),包括:芯片偏移、面板翹曲、RDL工藝能力、配套設(shè)備和材料、市場應(yīng)用等方面。
    的頭像 發(fā)表于 07-21 10:19 ?1695次閱讀
    FOPLP工藝<b class='flag-5'>面臨</b>的<b class='flag-5'>挑戰(zhàn)</b>

    FPGA在機器學(xué)習(xí)中的具體應(yīng)用

    隨著機器學(xué)習(xí)和人工智能技術(shù)的迅猛發(fā)展,傳統(tǒng)的中央處理單元(CPU)和圖形處理單元(GPU)已經(jīng)無法滿足高效處理大規(guī)模數(shù)據(jù)和復(fù)雜模型的需求。FPGA(現(xiàn)場可編程門陣列)作為一種靈活且高效的硬件加速平臺
    的頭像 發(fā)表于 07-16 15:34 ?3028次閱讀

    通過NVIDIA Cosmos模型增強機器人學(xué)習(xí)

    通用機器人的時代已經(jīng)到來,這得益于機械電子技術(shù)和機器人 AI 基礎(chǔ)模型的進(jìn)步。但目前機器人技術(shù)的發(fā)展仍面臨一個關(guān)鍵挑戰(zhàn)
    的頭像 發(fā)表于 07-14 11:49 ?1228次閱讀
    通過NVIDIA Cosmos模型增強<b class='flag-5'>機器人學(xué)習(xí)</b>

    AI?時代來襲,手機芯片面臨哪些新挑戰(zhàn)?

    邊緣AI、生成式AI(GenAI)以及下一代通信技術(shù)正為本已面臨高性能與低功耗壓力的手機帶來更多計算負(fù)載。領(lǐng)先的智能手機廠商正努力應(yīng)對本地化生成式AI、常規(guī)手機功能以及與云之間日益增長的數(shù)據(jù)傳輸需求
    的頭像 發(fā)表于 06-10 08:34 ?1355次閱讀
    AI?時代來襲,手機芯片<b class='flag-5'>面臨</b>哪些新<b class='flag-5'>挑戰(zhàn)</b>?

    智能軟件+硬件解決方案克服實時立體視覺中的挑戰(zhàn)

    現(xiàn)出色,特別適用于工業(yè)機器人應(yīng)用。從料箱撿取到自主導(dǎo)航,立體視覺使得各種機器人應(yīng)用成為可能。然而,在實時應(yīng)用場景中部署立體視覺系統(tǒng)時,常常面臨以下幾個挑戰(zhàn):圖像處理
    的頭像 發(fā)表于 05-16 17:04 ?737次閱讀
    智能軟件+硬件解決方案<b class='flag-5'>克服</b>實時立體視覺中的<b class='flag-5'>挑戰(zhàn)</b>