91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一個(gè)價(jià)值36.5萬美元的機(jī)器學(xué)習(xí)模型打了水漂?

人工智能與大數(shù)據(jù)技術(shù) ? 來源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2021-01-06 17:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

人們口口聲聲擔(dān)心「人工智能的推斷不可靠」,實(shí)則連個(gè)數(shù)據(jù)泄露的問題都敢忽略。

人們常會提到,當(dāng)今流行的深度學(xué)習(xí)模型是黑箱狀態(tài)——給它一個(gè)輸入,模型就會決策出一個(gè)結(jié)果,其中的過程不為人所知。人們無法確切知道深度學(xué)習(xí)的決策依據(jù)以及結(jié)果是否可靠。近年來,越來越多的新研究面向構(gòu)建可信的機(jī)器學(xué)習(xí)方法獲得了成果。 然而最近發(fā)生的一件事情告訴我們,很多時(shí)候被廣泛應(yīng)用的機(jī)器學(xué)習(xí)模型出問題的原因,壓根就不會深入到算法層面。一點(diǎn)數(shù)據(jù)上的紕漏就會造成讓人啼笑皆非的結(jié)果,而且最重要的是,這樣的事比所謂「模型不可解釋」造成的損失還要多出不少。

上個(gè)星期,美國賓夕法尼亞州歷史保護(hù)官員和交通部門之間發(fā)送了大量郵件,其中內(nèi)容混合了悲傷、困惑和沮喪的情緒。這一丑聞造成的影響仍在繼續(xù),在官方做出回應(yīng)之前,我們還不能了解更多情況(盡管此事在當(dāng)?shù)乜脊艑W(xué)家之間已經(jīng)人盡皆知了)。 一個(gè)價(jià)值 36.5 萬美元的機(jī)器學(xué)習(xí)模型打了水漂。 發(fā)生甚么事了? 五年前,一些人帶著創(chuàng)意拜訪了賓州交通部,提出為史前考古遺址創(chuàng)建一個(gè)全州范圍預(yù)測模型。最終,政府部門選擇與一家大型工程公司合作,后者一直在考古調(diào)查方面花錢。

從合同中我們可以看到,這家公司花費(fèi)了納稅人 36.59 萬美元,承諾提供一款最強(qiáng)大的模型,該模型還整合了 GIS(地理信息系統(tǒng))疊加分析,其結(jié)果可供考古學(xué)家們使用。

從那以后直到今天,絕大多數(shù)賓夕法尼亞州交通部門的項(xiàng)目和所有需要進(jìn)行文化資源調(diào)查的項(xiàng)目,在進(jìn)行前都使用了這個(gè)機(jī)器學(xué)習(xí)模型的推斷結(jié)果。

從數(shù)據(jù)準(zhǔn)備、模型選擇再到性能測試,這一項(xiàng)目原本看起來有模有樣,然而錯(cuò)誤一旦被人揭穿,情況就變得不忍直視了。 他們將待預(yù)測區(qū)域當(dāng)做負(fù)樣本 從 2013 年中到 2015 年,項(xiàng)目承包商花了一年半左右的時(shí)間向賓州交通部門交付了一個(gè)模型和 7 冊文檔。 不幸的是,到目前為止,似乎沒有人閱讀過該文檔。模型似乎會輸出一些毫無意義的數(shù)字,而背后原因非常神奇。

22017590-4a59-11eb-8b86-12bb97331649.png

咨詢公司將未調(diào)研的土地用作負(fù)樣本數(shù)據(jù)集,但是,這些土地不就是模型將要預(yù)測的那部分嗎?一個(gè)花費(fèi)了 30 多萬美元的模型,卻真實(shí)地包含了這樣的錯(cuò)誤。

223fffe0-4a59-11eb-8b86-12bb97331649.png

無論如何,在一個(gè)(混合了回歸和隨機(jī)森林的)模型中使用 null 數(shù)據(jù)都是不合適的,這些本不應(yīng)該作為負(fù)樣本數(shù)據(jù)而出現(xiàn)。即使這些 null 數(shù)據(jù)存在于自變量中,而不是因變量,它們依舊能夠?qū)δP偷耐评斫Y(jié)果造成嚴(yán)重破壞。 他們檢查項(xiàng)目時(shí)沒有使用數(shù)據(jù)處理的最佳實(shí)踐 可為什么開發(fā)團(tuán)隊(duì)的數(shù)據(jù)科學(xué)家們辛苦工作了一年半,也沒有意識到他們在第一步中就犯了錯(cuò)?這與他們檢查項(xiàng)目的方式有關(guān)。 一般來說,檢查的金標(biāo)準(zhǔn)是留出一部分隨機(jī)選擇的部分。此時(shí),只要你訓(xùn)練了模型,就可以知道該模型在給到真實(shí)數(shù)據(jù)時(shí)是否 work。

22708f5c-4a59-11eb-8b86-12bb97331649.png

顯然,在這件事中,相關(guān)研究人員未曾進(jìn)行這樣的驗(yàn)證。也許他們使用了一些神秘的統(tǒng)計(jì)方法?這就不得而知了。 他們將已知地點(diǎn)視為隨機(jī)采樣的結(jié)果 眾所周知,即使在一個(gè)項(xiàng)目區(qū)域內(nèi),也并非所有土地的采樣率都相同。僅使用鏟測試坑(Shovel Test Pit),并假設(shè)你有 100 英畝的土地,其中 50 英畝是高概率,50 英畝是低概率,并以不同的間隔(常見的有 15 米、30 米)對其進(jìn)行測試。這意味著你有 80% 的測試是在高概率土地上進(jìn)行的,因?yàn)槟憧梢栽谝挥€土地上以 15 米的間隔進(jìn)行 16 次鏟土測試,以 30 米的間隔進(jìn)行約 4 次測試。因此你需要在高概率部分上找到 80% 的站點(diǎn)。 因此我們有一些已知的站點(diǎn),這些站點(diǎn)并不是從隨機(jī)采樣的土地中發(fā)現(xiàn)的,而是從人們認(rèn)為能夠找到它們的位置發(fā)現(xiàn)的。 直覺上,大多數(shù)考古學(xué)家都知道這一點(diǎn)。這很重要,因?yàn)橐阎恼龢颖緮?shù)據(jù)集的自變量分布已用于這些統(tǒng)計(jì)測試。這種分布是有偏置的,數(shù)據(jù)科學(xué)家不知道如何解釋這些偏置。 因此,我們需要留出一部分?jǐn)?shù)據(jù)。 項(xiàng)目管理,沒有管理?

花費(fèi) 36.5 萬美元,并不意味著簡單地讓承包商派一個(gè)人過來,在辦公室角落里搗鼓幾年,而無需他人管理。 追溯到 2014 年初,這個(gè)項(xiàng)目在交付給賓州交通部門的第三卷文檔中,已經(jīng)犯了致命的錯(cuò)誤(使用 null 數(shù)據(jù)作為負(fù)樣本數(shù)據(jù))。難道這個(gè)項(xiàng)目無人監(jiān)督嗎?為什么在向賓州交通部門收取數(shù)十萬美元之前,這個(gè)融合了 GIS 和機(jī)器學(xué)習(xí)的模型不值得其他人(無論是同事還是上級)關(guān)注? 交通部門盡到職責(zé)了嗎? 交付文檔之后,賓州交通部門中誰閱讀過這些文檔?作者猜測可能沒人閱讀,也沒人能理解這些文檔。不過這純粹是猜測了,我們更愿意相信文檔被讀過,只是讀地不仔細(xì)。

針對該模型中最大的錯(cuò)誤而言,任何上過大學(xué)統(tǒng)計(jì)學(xué)課程的人都應(yīng)該能夠解決這個(gè)問題。但是正如有人指出的那樣,考古學(xué)家很少學(xué)習(xí)這些數(shù)學(xué)課程,因此可能不會有考古學(xué)家來指出這些錯(cuò)誤。 教訓(xùn) 這一錯(cuò)誤浪費(fèi)了納稅人 36.5 萬美元,顯示了美國交通部門和售賣該模型的公司在質(zhì)量控制方面的漫不經(jīng)心,同時(shí)也表明,一些有問題的模型目前仍在某些重要的大型項(xiàng)目中使用。 老實(shí)說,如果想要一個(gè)預(yù)測模型,你拿出這個(gè)項(xiàng)目 3–5% 的經(jīng)費(fèi)就夠了。把模型做得簡單一點(diǎn),這樣你就能自己對它進(jìn)行更新、測試。即使這個(gè)模型沒有大量的質(zhì)量控制問題,復(fù)雜的數(shù)學(xué)模型也不比簡單的性能要好。 揭露此事的人,Medium 博主 Archaic Inquiries 表示,他目前還在等待 SHPO 和 DOT 的回復(fù)。他特別強(qiáng)調(diào),他既不在這個(gè)州工作,近期也沒有這個(gè)打算,寫這篇批評文章也沒拿到什么報(bào)酬。他的動機(jī)很簡單:看到這個(gè)模型由于缺乏監(jiān)管而用于政策指導(dǎo),作為一名專業(yè)人員的他為自己的領(lǐng)域感到尷尬。

機(jī)器學(xué)習(xí)的推斷結(jié)果出錯(cuò)造成的損失有大有小,在這里可能意味著不少古人類遺跡被忽略,但最可怕的地方在于,在機(jī)器學(xué)習(xí)技術(shù)被廣泛應(yīng)用的今天,這樣的錯(cuò)誤其實(shí)屢見不鮮。 在社交網(wǎng)絡(luò)上,賓州算法事件被機(jī)器學(xué)習(xí)圈的人廣泛討論,有人表示:「我遇到的大多數(shù)數(shù)據(jù)科學(xué)家,都完全沒有意識到這種錯(cuò)誤推理的問題(數(shù)據(jù)泄露),而且因?yàn)閷τ跈C(jī)器學(xué)習(xí)的無條件信任,甚至相信算法,更甚于相信自己的領(lǐng)域知識。」 「我認(rèn)識一個(gè)政府機(jī)構(gòu)的數(shù)據(jù)科學(xué)家,有很多次,我不得不向他解釋一些數(shù)據(jù)科學(xué)領(lǐng)域中的基本概念。我不會點(diǎn)明他在哪個(gè)機(jī)構(gòu),但當(dāng)美國人的生命受到威脅時(shí),它會是人們首先想要求助的那個(gè)部門。」在 Reddit 上,用戶 Stereoisomer 說道。 不知此類在技術(shù)上沒有什么解決難度的問題,以后會不會越來越少。

原文標(biāo)題:模型花費(fèi)幾十萬美元,五年之間指導(dǎo)無數(shù)項(xiàng)目,才發(fā)現(xiàn)負(fù)樣本用的是null?

文章出處:【微信公眾號:人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39793

    瀏覽量

    301443
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50098

    瀏覽量

    265411
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8553

    瀏覽量

    136955
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5599

    瀏覽量

    124398

原文標(biāo)題:模型花費(fèi)幾十萬美元,五年之間指導(dǎo)無數(shù)項(xiàng)目,才發(fā)現(xiàn)負(fù)樣本用的是null?

文章出處:【微信號:TheBigData1024,微信公眾號:人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    創(chuàng)346萬美元眾籌記錄,掃雪機(jī)器人成現(xiàn)象級產(chǎn)品,電池、電機(jī)是關(guān)鍵

    科技(Yarbo)憑借模塊化設(shè)計(jì)理念,在Kickstarter眾籌平臺創(chuàng)下346萬美元的紀(jì)錄,成為現(xiàn)象級產(chǎn)品。 ? 在北美市場,掃雪機(jī)器人已從高端玩具轉(zhuǎn)變?yōu)榧彝?biāo)配,美國70%的獨(dú)棟住宅位于雪區(qū),傳統(tǒng)人工掃雪年均耗時(shí)超50小時(shí),而智能化設(shè)備通過技術(shù)創(chuàng)新將效率提升10倍以上
    的頭像 發(fā)表于 09-14 00:21 ?8805次閱讀

    強(qiáng)化學(xué)習(xí)會讓自動駕駛模型學(xué)習(xí)更快嗎?

    種讓機(jī)器通過“試錯(cuò)”學(xué)會決策的辦法。與監(jiān)督學(xué)習(xí)不同,監(jiān)督學(xué)習(xí)是有人提供示范答案,讓模型去模仿;而強(qiáng)化
    的頭像 發(fā)表于 01-31 09:34 ?646次閱讀
    強(qiáng)化<b class='flag-5'>學(xué)習(xí)</b>會讓自動駕駛<b class='flag-5'>模型</b><b class='flag-5'>學(xué)習(xí)</b>更快嗎?

    機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個(gè)常見錯(cuò)誤與局限性

    無論你是剛?cè)腴T還是已經(jīng)從事人工智能模型相關(guān)工作段時(shí)間,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中都存在些我們需要時(shí)
    的頭像 發(fā)表于 01-07 15:37 ?192次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>和深度<b class='flag-5'>學(xué)習(xí)</b>中需避免的 7 <b class='flag-5'>個(gè)</b>常見錯(cuò)誤與局限性

    特斯拉消息:機(jī)器人成本目標(biāo)2萬美元以內(nèi) 馬斯克:特斯拉或建巨型芯片工廠

    給大家?guī)?b class='flag-5'>一些特斯拉的最新消息: 特斯拉:機(jī)器人成本目標(biāo)2萬美元以內(nèi) 11月7日,特斯拉在微博發(fā)文稱人形機(jī)器人的試生產(chǎn)產(chǎn)線已經(jīng)在弗里蒙特工廠開始運(yùn)行,規(guī)模更大的第三代人形
    的頭像 發(fā)表于 11-07 15:45 ?504次閱讀

    摩爾斯微電子完成8800澳元(5900萬美元)C輪融資,引領(lǐng)下代物聯(lián)網(wǎng)新紀(jì)元

    C 輪融資,籌集資金8800澳元(5900萬美元)。本輪融資由 MegaChips 領(lǐng)投,國家重建基金(NRFC)、Blackbird、Main Sequence、Uniseed、Ray Stata、Malcolm與Lucy Turnbull夫婦、Startmate,
    的頭像 發(fā)表于 09-23 10:39 ?2817次閱讀

    意法半導(dǎo)體投資6000萬美元,發(fā)力面板級封裝

    意法半導(dǎo)體宣布向其法國圖爾(Tours)工廠注資6000萬美元,用于建設(shè)條面向“面板級封裝(PLP)”的先進(jìn)制程試驗(yàn)線,預(yù)計(jì)2026年第三季度投入運(yùn)營。 PLP技術(shù)改以大型方形面板為基板,可同時(shí)
    發(fā)表于 09-22 12:32 ?1603次閱讀

    超小型Neuton機(jī)器學(xué)習(xí)模型, 在任何系統(tǒng)級芯片(SoC)上解鎖邊緣人工智能應(yīng)用.

    Neuton 是家邊緣AI 公司,致力于讓機(jī)器 學(xué)習(xí)模型更易于使用。它創(chuàng)建的模型比競爭對手的框架小10 倍,速度也快10 倍,甚至可以在最
    發(fā)表于 07-31 11:38

    意法半導(dǎo)體2025年第二季度凈營收27.7億美元

    意法半導(dǎo)體第二季度實(shí)現(xiàn)凈營收27.7億美元,毛利率33.5%,營業(yè)虧損1.33億美元,凈虧損9,700萬美元(合每股攤薄收益-0.11美元)。按非美國通用會計(jì)準(zhǔn)則計(jì)算,凈營業(yè)利潤為5,
    的頭像 發(fā)表于 07-30 16:04 ?943次閱讀

    通過NVIDIA Cosmos模型增強(qiáng)機(jī)器人學(xué)習(xí)

    通用機(jī)器人的時(shí)代已經(jīng)到來,這得益于機(jī)械電子技術(shù)和機(jī)器人 AI 基礎(chǔ)模型的進(jìn)步。但目前機(jī)器人技術(shù)的發(fā)展仍面臨
    的頭像 發(fā)表于 07-14 11:49 ?1089次閱讀
    通過NVIDIA Cosmos<b class='flag-5'>模型</b>增強(qiáng)<b class='flag-5'>機(jī)器人學(xué)習(xí)</b>

    Meta豪擲千萬美元年新爭奪頂尖AI人才 200萬美元留不住

    行業(yè)芯事行業(yè)資訊
    電子發(fā)燒友網(wǎng)官方
    發(fā)布于 :2025年06月18日 11:02:04

    邊緣計(jì)算中的機(jī)器學(xué)習(xí):基于 Linux 系統(tǒng)的實(shí)時(shí)推理模型部署與工業(yè)集成!

    你好,旅行者!歡迎來到Medium的這角落。在本文中,我們將把個(gè)機(jī)器學(xué)習(xí)模型(神經(jīng)網(wǎng)絡(luò))部署
    的頭像 發(fā)表于 06-11 17:22 ?1000次閱讀
    邊緣計(jì)算中的<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>:基于 Linux 系統(tǒng)的實(shí)時(shí)推理<b class='flag-5'>模型</b>部署與工業(yè)集成!

    意法半導(dǎo)體公布2025年第季度財(cái)報(bào)

    ???????? 第季度凈營收25.2億美元;毛利率33.4%;營業(yè)利潤300萬美元;凈利潤5,600萬美元。
    的頭像 發(fā)表于 04-29 09:56 ?1090次閱讀

    InfiniLink獲得聯(lián)發(fā)科、Sukna Ventures和Egypt Ventures的1000萬美元融資

    來源:Silicon Semiconductor △掃碼報(bào)名參會 InfiniLink是家創(chuàng)新型半導(dǎo)體初創(chuàng)公司,專注于為AI驅(qū)動的數(shù)據(jù)中心提供先進(jìn)的光數(shù)據(jù)連接芯片,現(xiàn)宣布成功完成1000萬美元
    的頭像 發(fā)表于 04-18 16:18 ?646次閱讀

    十大鮮為人知卻功能強(qiáng)大的機(jī)器學(xué)習(xí)模型

    本文轉(zhuǎn)自:QuantML當(dāng)我們談?wù)?b class='flag-5'>機(jī)器學(xué)習(xí)時(shí),線性回歸、決策樹和神經(jīng)網(wǎng)絡(luò)這些常見的算法往往占據(jù)了主導(dǎo)地位。然而,除了這些眾所周知的模型之外,還存在些鮮為人知但功能強(qiáng)大的算法,它們能夠
    的頭像 發(fā)表于 04-02 14:10 ?1095次閱讀
    十大鮮為人知卻功能強(qiáng)大的<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>模型</b>

    FF獲得新輪4100萬美元融資

    總部位于美國加州的全球共享智能電動出行生態(tài)公司Faraday Future Intelligent Electric Inc.(納斯達(dá)克股票代碼:FFAI)(以下簡稱“FF”或“公司”)今日宣布,公司已成功簽署總額達(dá)4100萬美元的新增現(xiàn)金融資。
    的頭像 發(fā)表于 03-25 09:09 ?1386次閱讀