91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

研究者最近仔細估算了各種知識圖譜每創(chuàng)建一條記錄所需要的成本

MqC7_CAAI_1981 ? 來源:lq ? 2019-02-18 16:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

我們知道強大的深度模型需要很多計算力,那你知道創(chuàng)建一個知識圖譜的成本到底是多少嗎?德國 Mannheim 大學的研究者最近仔細估算了各種知識圖譜每創(chuàng)建一條記錄所需要的成本,他們表示對于大型知識圖譜,手動創(chuàng)建一個三元組(即一條記錄)的成本在 2 到 6 美元之間,總成本在數(shù)百萬到數(shù)十億美元之間。

知識圖譜廣泛用于各種領域,它的統(tǒng)計信息也常被分析。但有一個問題一直缺乏研究:產(chǎn)出價格是多少?在此論文中,研究者提出了一種方法預估知識圖譜的成本。他們表示手動創(chuàng)建一個三元組(triple)的成本大約在 2 到 6 美元左右,而自動創(chuàng)建知識圖譜的成本要降低 15 到 250 倍(即一個三元組 1 美分到 15 美分)。

注意其中 15 美分每條的「自動化」知識圖譜還是需要大量人力進行數(shù)據(jù)的驗證。此外,作者表示成本也應該作為知識圖譜的評價標準,例如可以使用每個三元組的成本或其他更優(yōu)的度量方法。

論文:How much is a Triple? Estimating the Cost of Knowledge Graph Creation

論文地址:http://ceur-ws.org/Vol-2180/ISWC_2018_Outrageous_Ideas_paper_10.pdf

估計知識圖譜的成本

隨著知識圖譜的廣泛應用,我們越來越關注大型知識圖譜,例如 DBpedia、YAGO 等。我們已經(jīng)有很多方法從各種角度檢查這些大型知識圖譜,例如大小、覆蓋度和質量等。然而這些分析不足的地方在于成本,即創(chuàng)建知識圖譜的價格。

人工創(chuàng)建:Cyc 和 Freebase

對于人工創(chuàng)建的知識圖譜,我們必須評估提供這些陳述語句(statement)的工作量,從而估計平均成本。

Cyc 是最早的通用知識圖譜之一,同時它的開發(fā)成本也能公開獲得。在 2017 年的一項會議中,Cyc 的創(chuàng)建者 Douglas Lenat 表示:構建 Cyc 的成本為 1.2 億美元。在同一個 PPT 中,Lenat 表示 Cyc 一共有 21M 斷言(assertion),因此每條陳述語句或斷言需要 5.71 美元。若 1000 人有一年的時間完成,則每人每 9.5 分鐘需要完成一條斷言。

Freebase 是由志愿者共同完成的,因此其工作量更難判斷。截止至 2011 年 4 月份,創(chuàng)建英文維基百科的估計時長為 41M 工時。同時維基百科包含 3.6M 的頁面,平均每一個頁面 36.4 個句子,因此換算下來每一條語句需要 18.7 分鐘。由于大多數(shù)維基百科條目都是由美國構建的,我們可以使用每小時 7.25 美元的美國聯(lián)邦最低工資作為人工成本估算,因此每一句的成本可以換算為 2.25 美元。借鑒這個成本,我們可以假設 Freebase 每一條陳述語句的成本也是 2.25 美元。

這比 Cyc 的平均成本低了一半,這種低成本也是合理的,因為 Cyc 是由人類專家構建的,而 Freebase 由非專業(yè)人員創(chuàng)建??偟亩?,對于包含 30 億事實(fact)的最新版 Freebase,它的總成本約為 67.5 億美元($6.75B)。

自動創(chuàng)建: DBpedia、YAGO 和 NELL

評估自動創(chuàng)建知識圖譜所花費成本不同于人工創(chuàng)建知識圖譜。我們參考了用于創(chuàng)建知識圖譜的軟件,基于代碼行數(shù)(LOC)來估計開發(fā)知識圖譜的成本。我們遵循 [2] 中的分析,即一個軟件生成項目平均每小時生產(chǎn) 37 行代碼(LOC)。

DBpedia 主要是基于 DBpedia 提取框架從維基百科 Dump 得到的,它通過映射中心實體而創(chuàng)建知識圖譜。DBpedia 兩部分需要 4.9M 和 2.2M LOC,它需要的總開發(fā)成本為 510 萬美元。鑒于英語 DBpedia[11] 共有 400M 陳述語句,每一條成本約為 1.85 美分。相比于人工搭建的知識圖譜(每一條 2.25 美元),自動搭建的要節(jié)省百倍的成本。

YAGO 也是一種知識圖譜,它將維基百科提取的知識與 WordNet[7] 相結合。為了公平比較,它的成本應該包含 WordNet 的搭建費用。YAGO 代碼庫有 1.6M LOC(包括將信息框映射到本體的規(guī)則),因此它的總體成本為 160 萬美元。此外,WordNet 本身還包含了 117k 個同義詞集,每一個包含一條注釋。我們估計定義一個同義詞集的成本與構建一個維基百科頁面的成本相近,即最高 1000 萬美元。若 YAGO 有 14 億條陳述語句 [11],那么每一條的成本為 0.83 美分。相比人工搭建,它的成本要節(jié)省 250 倍。

NELL 是一個學習關系抽取 [8] 模式的系統(tǒng),其核心技術包含 103k 的 LOC,預估開發(fā)成本為 10.9 萬美元。此外,該數(shù)據(jù)集每月還需要人工校驗 1467 條陳述語句。假設人工校驗一條陳述語句的成本和創(chuàng)建成本一樣,那么總的校驗成本為 37.6 萬美元,即通成本為 48.5 美元。因此換算下來,NELL 每條陳述語句的成本為 14.25 美分,即比手動搭建便宜 16 倍。

新的評估標準

把成本作為創(chuàng)建知識圖譜的一種測量方法也能為其他評估方法鋪平道路。例如,可以通過成本查驗為知識圖譜補充缺失信息提供新方法 [9]:一個人一年半開發(fā)知識圖譜應該可以添加 2800 條陳述語句,這應該是人力手動產(chǎn)出的三元組數(shù)量。

另一個有趣的思路是開發(fā)成本與數(shù)據(jù)質量之間的關系。在圖 1 中,我們圖像描述了該論文討論的知識圖譜中每個三元組成本與錯誤率之間的關系。我們可以看到,高成本創(chuàng)建的三元組準確率也會更高,NELL 是個例外,準確率與成本之間關系極差。

每個三元組成本與錯誤率之間的關系展示圖。

總結

在這篇論文中,我們大體估計了創(chuàng)建一個流行的知識圖譜所花費的成本,這也是當前研究忽視的一個方面。我們量化了自動創(chuàng)建知識圖譜相比于手動方法的收益,并提出使用成本定義新型的評價標準,例如權衡成本與準確率。

有研究者反饋,我們也意識到有很多假設或估計在計算中都存在著問題(例如,我們沒有考慮第三方庫或基礎設施的成本)。其次,知識圖譜的來源或數(shù)據(jù)成本當前也沒有考慮在內(nèi)。然而,我們相信:知識圖譜自身帶來的價值將遠超過各種構建成本的總和。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)

    關注

    8

    文章

    7335

    瀏覽量

    94799
  • 自動化
    +關注

    關注

    31

    文章

    5937

    瀏覽量

    90283
  • 知識圖譜
    +關注

    關注

    2

    文章

    132

    瀏覽量

    8316

原文標題:67 億美金搞個圖,創(chuàng)建知識圖譜的成本有多高你知道嗎?

文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學會】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    惠州雷曼入選國家知識產(chǎn)權示范企業(yè)創(chuàng)建對象

    近日,國家知識產(chǎn)權局正式公布了2025-2027年度國家知識產(chǎn)權強國建設示范創(chuàng)建對象名單。雷曼光電全資子公司——惠州雷曼,憑借其在知識產(chǎn)權創(chuàng)造、運用、保護和管理方面的體系化優(yōu)勢,成功入
    的頭像 發(fā)表于 03-03 16:36 ?780次閱讀

    羅萊迪思入選國家知識產(chǎn)權示范企業(yè)創(chuàng)建對象

    公司在自主創(chuàng)新與知識產(chǎn)權體系建設方面躋身先進行列,在數(shù)智化轉型賦能高質量發(fā)展的道路上迎來新的里程碑。國家知識產(chǎn)權示范企業(yè)創(chuàng)建對象評選,旨在遴選
    的頭像 發(fā)表于 01-27 16:06 ?761次閱讀
    羅萊迪思入選國家<b class='flag-5'>知識</b>產(chǎn)權示范企業(yè)<b class='flag-5'>創(chuàng)建</b>對象

    芯原入選國家知識產(chǎn)權示范企業(yè)創(chuàng)建對象

    1月12日,國家知識產(chǎn)權局公示了“2025-2027年國家知識產(chǎn)權強國建設示范創(chuàng)建對象”的評審結果,芯原微電子 (上海) 股份有限公司憑借其在知識產(chǎn)權創(chuàng)造、運用、管理和保護方面的扎實基
    的頭像 發(fā)表于 01-27 15:28 ?224次閱讀

    潤和軟件入選大模型體機產(chǎn)業(yè)圖譜

    近日,由中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟與中國信息通信研究院聯(lián)合編制的《大模型體機產(chǎn)業(yè)圖譜》正式發(fā)布。該圖譜系統(tǒng)梳理并收錄了國內(nèi)大模型體機產(chǎn)業(yè)鏈
    的頭像 發(fā)表于 12-10 17:56 ?1512次閱讀
    潤和軟件入選大模型<b class='flag-5'>一</b>體機產(chǎn)業(yè)<b class='flag-5'>圖譜</b>

    如何估算焊錫膏的印刷量?

    估算焊錫膏的印刷量是表面貼裝技術(SMT)中的關鍵環(huán)節(jié),直接影響焊接質量和成本。以下是分步驟的估算方法及關鍵注意事項:
    的頭像 發(fā)表于 11-26 09:06 ?585次閱讀
    如何<b class='flag-5'>估算</b>焊錫膏的印刷量?

    如何創(chuàng)建個浮點立即數(shù)

    32位的常量,包括32位的立即數(shù)或內(nèi)存地址。有些情況下只需要一條I-type指令,或者一條U-type指令就可以了。 例如加載常量0x12345678: lui x15,0x12345 # 首先加載
    發(fā)表于 10-21 13:51

    從材質到結構:一條優(yōu)質HDMI線背后的技術講究

    因素——材質與結構設計。今天,我們將深入探討一條優(yōu)質HDMI線背后的技術講究,幫助您做出更加明智的選擇。 、導體材料:信號傳輸?shù)幕A HDMI線的導體材料直接關系到信號傳輸?shù)馁|量和穩(wěn)定性。優(yōu)質的導體材料能夠有效降低電阻,減少信
    的頭像 發(fā)表于 07-09 17:59 ?1112次閱讀

    如何在Unified IDE中創(chuàng)建視覺庫HLS組件

    組件開始,該組件可以導出為 XO 文件用于 Vitis 系統(tǒng)工程;這與“自上而下的流程”相反,后者從 Vitis 工程開始,然后將 HLS 組件導入該工程。我們將創(chuàng)建視覺庫示例“remap”,并在 Unified IDE 中執(zhí)行
    的頭像 發(fā)表于 07-02 10:55 ?1455次閱讀
    如何在Unified IDE中<b class='flag-5'>創(chuàng)建</b>視覺庫HLS組件

    曙光AI解決方案助力光大銀行數(shù)字化基礎設施升級

    作為國有股份制商業(yè)銀行,光大銀行以全力做好“五篇大文章”為目標,結合曙光AI解決方案推進數(shù)字化基礎設施升級,創(chuàng)新金融服務,深化科技賦能,走出了一條具有光大特色的AI之路。 近年來,光大銀行主動順應
    的頭像 發(fā)表于 05-12 10:46 ?907次閱讀

    輕輕松松學電工(識圖篇)

    內(nèi)容介紹 結合廣大電工人員的實際需要,主要介紹了常用電工電路識圖的基礎知識、方法及技巧,內(nèi)容包括常用電氣符號、電工識圖基本方法,以及識讀供配電系統(tǒng)圖、建筑電氣圖、電力拖動系統(tǒng)電氣圖、P
    發(fā)表于 04-30 17:18

    開關電源的理論知識(電子講義)

    內(nèi)容目錄 1:開發(fā)個開關電源產(chǎn)品所需要的技能和專業(yè)理論知識 2:開發(fā)個開關電源產(chǎn)品所需要進行的各種
    發(fā)表于 04-24 17:14

    典型電路原理、電路識圖從入門到精通等資料

    1、電路識圖從入門到精通高清電子資料 由淺入深地介紹了電路圖的基礎知識、典型單元電路的識圖方法,通過“入門篇”和“精通篇”循序漸進、由淺入深地介紹了電路圖的基礎知識、典型單元電路的
    的頭像 發(fā)表于 04-15 15:53 ?2.4w次閱讀
    典型電路原理、電路<b class='flag-5'>識圖</b>從入門到精通等資料

    每周推薦!電子工程師必學!典型電路原理、電路識圖從入門到精通等資料

    1、 電路識圖從入門到精通高清電子資料 由淺入深地介紹了電路圖的基礎知識、典型單元電路的識圖方法,通過“入門篇”和“精通篇”循序漸進、由淺入深地介紹了電路圖的基礎知識、典型單元電路的
    發(fā)表于 04-11 15:17

    電路識圖從入門到精通高清電子資料

    、彩色電視機等電器的電路圖識圖技巧。 純分享貼,有需要可以直接下載附件獲取完整資料! (如果內(nèi)容有幫助可以關注、點贊、評論支持下哦~)
    發(fā)表于 04-10 16:22

    官網(wǎng)下載的stm32cubemx無法連接互聯(lián)網(wǎng),WiFi有一條斜杠,怎么解決?

    有哪位大佬幫忙解決下,我在官網(wǎng)下載的stm32cubemx無法連接互聯(lián)網(wǎng),WiFi有一條斜杠,感謝您。
    發(fā)表于 03-11 07:35