91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

智能體的連接問(wèn)題,如何創(chuàng)建能符合人類(lèi)目標(biāo)的智能體?

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李倩 ? 2018-11-24 09:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

將強(qiáng)化學(xué)習(xí)算法應(yīng)用到現(xiàn)實(shí)問(wèn)題中的一個(gè)障礙就是缺少合適的獎(jiǎng)勵(lì)函數(shù),而設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)又比較困難,因?yàn)橛脩糁荒茏约豪斫馊蝿?wù)的目標(biāo),很難傳達(dá)給強(qiáng)化學(xué)習(xí)智能體。這就引出了智能體和用戶的連接問(wèn)題(agent alignment problem):我們?nèi)绾蝿?chuàng)建一款符合用戶想法的智能體呢?

近日,DeepMind的新論文Scalable agent alignment via reward modeling: a research direction就提出了一種研究方向,本文對(duì)該論文進(jìn)行了概述總結(jié)。簡(jiǎn)單來(lái)說(shuō),本次提出的方法依靠獎(jiǎng)勵(lì)模型的循環(huán)應(yīng)用,通過(guò)連接(align)用戶的目的解決復(fù)雜的現(xiàn)實(shí)世界問(wèn)題。以下是論智對(duì)原文的詳細(xì)編譯:

最近幾年,強(qiáng)化學(xué)習(xí)在復(fù)雜的游戲環(huán)境中得到了不錯(cuò)的表現(xiàn),例如雅達(dá)利游戲、圍棋、象棋、Dota 2、星際爭(zhēng)霸II等等,AI智能體在這些復(fù)雜領(lǐng)域的表現(xiàn)甚至超過(guò)了人類(lèi)水平。游戲是開(kāi)發(fā)和測(cè)試機(jī)器學(xué)習(xí)算法的理想平臺(tái),其中有很多挑戰(zhàn)性的任務(wù),需要具備多種認(rèn)知能力才能完成。機(jī)器學(xué)習(xí)研究者可以在云端同時(shí)運(yùn)行數(shù)千個(gè)模擬實(shí)驗(yàn),生成足夠多的訓(xùn)練數(shù)據(jù)供系統(tǒng)學(xué)習(xí)。

重要的是,游戲通常有清晰的目標(biāo),還有可以表現(xiàn)距離目標(biāo)遠(yuǎn)近的分?jǐn)?shù)。分?jǐn)?shù)能為強(qiáng)化學(xué)習(xí)智能體提供有用的獎(jiǎng)勵(lì)函數(shù),當(dāng)選擇了正確的算法或架構(gòu)時(shí),能讓我們獲得快速的反饋。

智能體的連接問(wèn)題

總的來(lái)說(shuō),AI的目標(biāo)是不斷具備解決現(xiàn)實(shí)中復(fù)雜問(wèn)題的能力,從而造福人類(lèi)。但是現(xiàn)實(shí)生活中的任務(wù)并沒(méi)有內(nèi)置的獎(jiǎng)勵(lì)函數(shù)。這樣一來(lái),智能體在任務(wù)中的表現(xiàn)就無(wú)法輕易地定義,所以我們需要一種好方法提供反饋,讓智能體確切地了解我們想要什么,從而幫我們實(shí)現(xiàn)目標(biāo)。換句話說(shuō),我們想用人類(lèi)的反饋訓(xùn)練AI系統(tǒng),用這種方法將系統(tǒng)的行為和我們的目標(biāo)聯(lián)系在一起。針對(duì)這一目標(biāo),于是”智能體的連接“問(wèn)題的定義如下:

如何創(chuàng)建能符合人類(lèi)目標(biāo)的智能體?

連接問(wèn)題可以在強(qiáng)化學(xué)習(xí)框架中進(jìn)行,只不過(guò)其中要接受數(shù)字類(lèi)型的獎(jiǎng)勵(lì)信號(hào),智能體可以通過(guò)交互協(xié)議和用戶進(jìn)行互動(dòng),從而讓用戶將他們的想法傳遞給智能體。該協(xié)議有多種形式,用戶可以提供示范、偏好、最佳行為或者提供獎(jiǎng)勵(lì)函數(shù)。解決智能體連接問(wèn)題的一種方法就是根據(jù)用戶目標(biāo)作出動(dòng)作。

DeepMind的新論文對(duì)這一問(wèn)題指明了研究方向?;诖饲暗腁I安全性問(wèn)題和各種相關(guān)研究,我們?cè)O(shè)想了這些研究成果能為智能體的連接問(wèn)題做出哪些幫助。這為了解如何與用戶互動(dòng)打開(kāi)了新的大門(mén),即從他們的反饋中學(xué)習(xí)并預(yù)測(cè)偏好,這些都是更復(fù)雜、更抽象的話題,需要用超越人類(lèi)水平的方式去理解。

用獎(jiǎng)勵(lì)建模進(jìn)行連接

研究方向的重點(diǎn)是基于獎(jiǎng)勵(lì)建模:我們用用戶反饋訓(xùn)練了一個(gè)獎(jiǎng)勵(lì)模型,來(lái)捕捉他們的意圖。同時(shí),我們還訓(xùn)練了一個(gè)帶有強(qiáng)化學(xué)習(xí)的策略,用來(lái)讓獎(jiǎng)勵(lì)最大化。換句話說(shuō),我們將“學(xué)習(xí)做什么”從“學(xué)習(xí)怎么做”中分離出來(lái)。

獎(jiǎng)勵(lì)建模圖示

例如,在之前的研究中我們教智能體如何根據(jù)用戶的要求進(jìn)行后空翻、根據(jù)目標(biāo)狀態(tài)放置目標(biāo)物體、根據(jù)用戶選擇和專(zhuān)業(yè)玩家示范玩雅達(dá)利游戲。未來(lái),我們想設(shè)計(jì)的算法能夠?qū)W習(xí)適應(yīng)用戶提供反饋的方式(例如使用自然語(yǔ)言)。

擴(kuò)大規(guī)模

長(zhǎng)期來(lái)看,我們會(huì)擴(kuò)大獎(jiǎng)勵(lì)建模的規(guī)模,將其應(yīng)用于人類(lèi)難以評(píng)估的領(lǐng)域。為了做到這一點(diǎn),我們需要增強(qiáng)用戶衡量輸出的能力。我們討論了如何循環(huán)應(yīng)用獎(jiǎng)勵(lì)建模:我們可以用獎(jiǎng)勵(lì)建模訓(xùn)練智能體,幫助用戶進(jìn)行評(píng)估。如果評(píng)估過(guò)程比做出動(dòng)作更容易,我們就能從簡(jiǎn)單的任務(wù)中轉(zhuǎn)移到更復(fù)雜的任務(wù)上。這也可以看作是迭代增強(qiáng)的例子。

循環(huán)獎(jiǎng)勵(lì)建模圖示

例如,假設(shè)我們現(xiàn)在想訓(xùn)練智能體設(shè)計(jì)一款計(jì)算機(jī)芯片,為了檢測(cè)一款芯片設(shè)計(jì),我們訓(xùn)練了其他帶有獎(jiǎng)勵(lì)模型的智能體,模擬測(cè)試芯片的性能,計(jì)算熱損耗、估計(jì)芯片的使用壽命、尋找安全漏洞等等。最后,智能體的輸出能讓用戶訓(xùn)練出符合要求的智能體。盡管每個(gè)智能體都要解決很多比當(dāng)前機(jī)器學(xué)習(xí)系統(tǒng)更難的任務(wù),但這些任務(wù)會(huì)比設(shè)計(jì)芯片要簡(jiǎn)單。因?yàn)樵O(shè)計(jì)一款計(jì)算機(jī)芯片,你要理解每種評(píng)估任務(wù),但是反之則不是必要的。在這種情況下,循環(huán)獎(jiǎng)勵(lì)模型可以讓我們的智能體解決更復(fù)雜的任務(wù),同時(shí)保留和用戶目標(biāo)之間的聯(lián)系。

研究挑戰(zhàn)

想將獎(jiǎng)勵(lì)建模擴(kuò)大到復(fù)雜問(wèn)題中,我們會(huì)遇到一些挑戰(zhàn)。下圖列出了五種主要問(wèn)題以及可能的解決方法,論文對(duì)這些問(wèn)題進(jìn)行了深入的講解。

這也是智能體匹配問(wèn)題中最后一個(gè)重要因素:當(dāng)將智能體應(yīng)用在現(xiàn)實(shí)世界中時(shí),我們需要向用戶充分證明我們的智能體的確和用戶目標(biāo)完全匹配。論文中提到了五種不同的方法,幫助用戶增加對(duì)智能體的信心:設(shè)計(jì)選擇、測(cè)試、可解釋性、正式驗(yàn)證以及理論保證。

結(jié)語(yǔ)

雖然我們相信循環(huán)獎(jiǎng)勵(lì)建模是訓(xùn)練相連智能體的正確方向,但目前我們還不知道它擴(kuò)展的情況如何。幸運(yùn)的是,我們還有一些與智能體連接相關(guān)的研究方向:

模仿學(xué)習(xí)

短期強(qiáng)化學(xué)習(xí)

反向強(qiáng)化學(xué)習(xí)

協(xié)作反向強(qiáng)化學(xué)習(xí)

迭代增強(qiáng)

辯論

智能體基礎(chǔ)

論文中對(duì)它們的相似之處和不同點(diǎn)都做了更深介紹。

正如對(duì)抗輸入對(duì)計(jì)算機(jī)視覺(jué)系統(tǒng)的穩(wěn)健性一樣,在復(fù)雜的顯示領(lǐng)域中部署機(jī)器學(xué)習(xí)系統(tǒng)也是未來(lái)需要面對(duì)的難題。盡管我們會(huì)在擴(kuò)展獎(jiǎng)勵(lì)建模時(shí)遇到挑戰(zhàn),但這些挑戰(zhàn)是可以從中獲取進(jìn)展的具體技術(shù)性問(wèn)題。從這個(gè)意義上講,我們的研究方向已經(jīng)準(zhǔn)備就緒,可以開(kāi)展深層強(qiáng)化學(xué)習(xí)智能體的實(shí)證研究了。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:如何讓智能體了解用戶意圖?DeepMind提出獎(jiǎng)勵(lì)建模

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    學(xué)習(xí)智能開(kāi)發(fā)

    智能是大模型的應(yīng)用落地,正在學(xué)習(xí)中,這本書(shū)太及時(shí)了,非常想看看。
    發(fā)表于 03-27 15:48

    【「零基礎(chǔ)開(kāi)發(fā)AI Agent」閱讀體驗(yàn)】操作實(shí)戰(zhàn),開(kāi)發(fā)一個(gè)編程助手智能

    一. 首先要理解智能的相關(guān)概念 ,比如角色,限定,技能:包括插件等,知識(shí):包括知識(shí)庫(kù),文檔等等. 創(chuàng)建步驟: 二.創(chuàng)建智能
    發(fā)表于 05-27 11:16

    小藝開(kāi)放平臺(tái)快速創(chuàng)建鴻蒙智能

    1.登錄小藝開(kāi)放平臺(tái),進(jìn)入小藝智能平臺(tái)頁(yè)面,點(diǎn)擊立即體驗(yàn),進(jìn)入創(chuàng)建頁(yè)面。 2.點(diǎn)擊左上角【+創(chuàng)建智能
    發(fā)表于 01-19 11:00

    小藝智能調(diào)試與預(yù)覽---真機(jī)測(cè)試

    和所選用戶組為準(zhǔn)。 6、取消真機(jī)測(cè)試:只需進(jìn)入到智能編排頁(yè)面,再次點(diǎn)擊【真機(jī)測(cè)試】-【取消發(fā)布】即可。 創(chuàng)建真機(jī)測(cè)試用戶組列表 入口1:在智能
    發(fā)表于 01-28 14:16

    小藝開(kāi)放平臺(tái)鴻蒙智能開(kāi)發(fā)智能配置-基礎(chǔ)信息

    創(chuàng)建智能后,開(kāi)發(fā)者可以進(jìn)入智能配置頁(yè)面對(duì)智能
    發(fā)表于 02-02 16:47

    開(kāi)發(fā)智能配置-隱私協(xié)議服務(wù)

    聲明創(chuàng)建和托管能力,可以進(jìn)行配置。 通過(guò)智能【配置】-【隱私協(xié)議服務(wù)】頁(yè)面,在隱私聲明處選擇“隱私托管”,點(diǎn)擊【協(xié)議服務(wù)】,跳轉(zhuǎn)到智能
    發(fā)表于 02-03 15:54

    開(kāi)發(fā)智能配置-內(nèi)容合規(guī)

    智能上架前,需完成“人工智能生成合成內(nèi)容標(biāo)識(shí)”和“大模型備案信息”填寫(xiě) ,以供平臺(tái)審核;可在智能【配置】-【內(nèi)容合規(guī)】中填寫(xiě)。 人工
    發(fā)表于 02-07 11:44

    開(kāi)發(fā)智能調(diào)試與預(yù)覽---真機(jī)測(cè)試

    1、開(kāi)發(fā)者可在智能調(diào)試與預(yù)覽區(qū)域,點(diǎn)擊真機(jī)測(cè)試圖標(biāo)-點(diǎn)擊【白名單】跳轉(zhuǎn)至智能白名單配置頁(yè)面。 2、勾選用于測(cè)試的群組,點(diǎn)擊屏幕左側(cè)【編排】返回
    發(fā)表于 02-09 15:37

    鴻蒙智能上/下架、升級(jí)流程介紹

    執(zhí)行上架操作,并且已經(jīng)審核通過(guò)的智能,才能被其他用戶搜索并使用。 升級(jí)審核未通過(guò)的智能,線上依舊保留上一次通過(guò)審核的智能
    發(fā)表于 02-10 10:38

    藝開(kāi)放平臺(tái)鴻蒙智能版本管理

    智能的版本管理功能,包括查看、回退到歷史版本。版本記錄中包括智能上下架及撤回審核時(shí)的版本。 查看歷史版本 點(diǎn)擊智能
    發(fā)表于 02-27 19:18

    如何讓AI符合人類(lèi)的意圖?如何創(chuàng)建符合用戶意圖的智能?

    近年來(lái),強(qiáng)化學(xué)習(xí)在許多復(fù)雜游戲環(huán)境中取得了令人矚目的成績(jī),從Atari游戲、圍棋、象棋到Dota 2和星際爭(zhēng)霸II,AI智能在越來(lái)越復(fù)雜的領(lǐng)域迅速超越了人類(lèi)水平。游戲是開(kāi)發(fā)和測(cè)試機(jī)器學(xué)習(xí)算法的理想
    的頭像 發(fā)表于 11-24 10:24 ?4881次閱讀

    人工智能的倫理智能應(yīng)用及相關(guān)研究

    、智能家居、智慧醫(yī)療、戰(zhàn)爭(zhēng)武器等人類(lèi)生活密切相關(guān)的領(lǐng)域。這些應(yīng)用中,智能與環(huán)境、尤其是與人類(lèi)和社會(huì)的交互愈來(lái)愈突出,其中的倫理和道德問(wèn)題日
    發(fā)表于 03-24 15:25 ?7次下載
    人工<b class='flag-5'>智能</b>的倫理<b class='flag-5'>智能</b><b class='flag-5'>體</b>應(yīng)用及相關(guān)研究

    聯(lián)匯科技發(fā)布自主智能 OmBot 歐姆智能及 OmBot OS 操作系統(tǒng)

    智能的發(fā)展都表現(xiàn)出極大興趣,并寄予厚望。 大語(yǔ)言模型的出現(xiàn),無(wú)疑給 AI 智能的發(fā)展帶來(lái)了全新的想象力,因此盡管在眾多 AI 智能
    的頭像 發(fā)表于 07-11 14:07 ?1265次閱讀
    聯(lián)匯科技發(fā)布自主<b class='flag-5'>智能</b><b class='flag-5'>體</b> OmBot 歐姆<b class='flag-5'>智能</b><b class='flag-5'>體</b>及 OmBot OS 操作系統(tǒng)

    AI智能逼真模擬人類(lèi)行為

    近日,據(jù)外媒最新報(bào)道,斯坦福大學(xué)、華盛頓大學(xué)與Google DeepMind的科研團(tuán)隊(duì)攜手合作,成功開(kāi)發(fā)出一種能夠高度逼真模擬人類(lèi)行為的AI智能。 該智能
    的頭像 發(fā)表于 11-26 10:24 ?1376次閱讀

    智能設(shè)計(jì)模式和智能框架,你會(huì)了么?

    一、新聞 先播放一條最新新聞,通義團(tuán)隊(duì)官宣開(kāi)源了兩個(gè)智能 Alias-Agent 和 Data-Juicer Agent 。 Alias-Agent 提供了RaAct,Planner
    的頭像 發(fā)表于 11-12 16:30 ?1234次閱讀
    多<b class='flag-5'>智能</b><b class='flag-5'>體</b>設(shè)計(jì)模式和<b class='flag-5'>智能</b><b class='flag-5'>體</b>框架,你會(huì)了么?