91欧美超碰AV自拍|国产成年人性爱视频免费看|亚洲 日韩 欧美一厂二区入|人人看人人爽人人操aV|丝袜美腿视频一区二区在线看|人人操人人爽人人爱|婷婷五月天超碰|97色色欧美亚州A√|另类A√无码精品一级av|欧美特级日韩特级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

多智能體強化學習(MARL)核心概念與算法概覽

穎脈Imgtec ? 2026-01-21 16:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文轉(zhuǎn)自:DeepHub IMBA

作者:Syntal


訓練單個 RL 智能體的過程非常簡單,那么我們現(xiàn)在換一個場景,同時訓練五個智能體,而且每個都有自己的目標、只能看到部分信息,還能互相幫忙。

這就是多智能體強化學習(Multi-Agent Reinforcement Learning,MARL),但是這樣會很快變得混亂。


什么是多智能體強化學習

MARL 是多個決策者(智能體)在同一環(huán)境中交互的強化學習。

環(huán)境類型可以很不一樣。競爭性的,比如國際象棋,一方贏一方輸。合作性的,比如團隊運動,大家共享目標。還有混合型的,更像現(xiàn)實生活——現(xiàn)在是隊友,過會兒可能是對手,有時候兩者同時存在。

但是這里有一個關(guān)鍵的問題:從任何一個智能體的視角看世界變成了非平穩(wěn)的,因為其他智能體也在學習、在改變行為。也就是說在學規(guī)則的時候,規(guī)則本身也在變。


MARL 在現(xiàn)實中的位置

單智能體 RL 適合系統(tǒng)只有一個"大腦"的情況,而MARL 則出現(xiàn)在世界有多個"大腦"的時候。

現(xiàn)實世界中有很多這樣的案例,比如交通信號控制:每個路口是一個智能體,一個信號燈"貪婪"了,下游路口就會卡死;倉庫機器人:每個機器人自己選路徑,碰撞和擁堵天然是多智能體問題;廣告競價和市場:智能體用不斷變化的策略爭奪有限資源;網(wǎng)絡安全:攻擊者和防御者是相互適應的智能體對;在線游戲和模擬:協(xié)調(diào)、欺騙、配合、自我對弈——這些都是MARL 的經(jīng)典試驗場。


核心概念

大多數(shù)真實場景中,智能體只能看到狀態(tài)的一部分。所以 MARL 里的策略通常基于局部觀測,而不是完整的全局狀態(tài)。

單智能體 RL 里環(huán)境動態(tài)是穩(wěn)定的,而MARL 不一樣"環(huán)境"包括其他智能體。它們在學習,你的轉(zhuǎn)移動態(tài)也就跟著變了。

這正是經(jīng)典的 Qlearn在多智能體環(huán)境里容易震蕩、甚至崩潰的原因。

合作任務中團隊拿到獎勵,但功勞該算誰的?團隊成功了,是智能體 2 的動作起了作用,還是智能體 5 在 10 步之前的作用?這就是信用分配問題,這是MARL 里最頭疼的實際難題之一。


集中式與分布式

集中訓練、分布式執(zhí)行(CTDE)

這是目前最常見的模式。訓練時智能體可以用額外信息,比如全局狀態(tài)或其他智能體的動作。執(zhí)行時每個智能體只根據(jù)自己的局部觀測行動。

這樣的好處是,既有集中學習的穩(wěn)定性,又不需要在運行時獲取不現(xiàn)實的全局信息。

完全分布式學習

智能體只從局部經(jīng)驗學習。這個聽起來是對的,而且簡單任務也能用。但實際中往往不夠穩(wěn)定,合作任務尤其如此。


算法總覽

合作性基于價值的方法:Independent Q-Learning(IQL)是最簡單的基線,容易實現(xiàn)但通常不穩(wěn)定;VDN 和 QMIX 通過混合各智能體的價值來學全局團隊價值,合作處理得更好。

策略梯度和 Actor-Critic 方法:MADDPG 用集中式 Critic 配分布式 Actor,概念上是很好的切入點;MAPPO 在很多合作任務里是靠譜的默認選擇。

自我對弈(Self-play):和自己不同版本對打來建立泛化的策略。思路簡單粗暴效果也很好。


Python 從零搭一個小 MARL 環(huán)境

來做個玩具游戲:兩個智能體必須協(xié)調(diào)。經(jīng)典設定——兩者選同一個動作才有獎勵。每個智能體選 0 或 1,動作一致拿 +1,不一致拿 0。

我們這里刻意設計得簡單,這樣方便我們聚焦在 MARL 機制本身。

import random
from collections import defaultdict

class CoordinationGame:
def step(self, a0, a1):
reward = 1 if a0 == a1 else 0
done = True # single-step episode
return reward, done

接下來是最小化的 Independent Q-Learning 設置,每個智能體學自己的 Q 表。這里沒有狀態(tài),Q 只取決于動作。

def epsilon_greedy(Q, eps=0.1):
if random.random() < eps: ?
return random.choice([0, 1])
return 0 if Q[0] >= Q[1] else 1

Q0 = defaultdict(float) # Q0[action]
Q1 = defaultdict(float) # Q1[action]

alpha = 0.1
eps = 0.2
env = CoordinationGame()

for episode in range(5000):
a0 = epsilon_greedy(Q0, eps)
a1 = epsilon_greedy(Q1, eps)

r, done = env.step(a0, a1)

# One-step update (no next-state)
Q0[a0] += alpha * (r - Q0[a0])
Q1[a1] += alpha * (r - Q1[a1])

# Inspect learned preferences
print("Agent0 Q:", dict(Q0))
print("Agent1 Q:", dict(Q1))

多數(shù)運行會收斂到兩種"慣例"之一:兩者都學會總是選 0,或者都學會總是選 1。

這就是協(xié)調(diào)從學習中涌現(xiàn)出來的樣子。雖然小但和大型合作 MARL 系統(tǒng)里依賴的模式是同一類東西。

這個玩具例子太友好了。難一點的任務里,IQL 常常變得不穩(wěn)定,因為每個智能體都在追一個移動靶。


讓例子更"MARL"一點

常見技巧是加共享團隊獎勵,同時保證足夠長的探索期來發(fā)現(xiàn)協(xié)調(diào),下面是一個帶衰減 epsilon 的訓練循環(huán):

Q0 = defaultdict(float)
Q1 = defaultdict(float)

alpha = 0.1
eps = 0.9
eps_decay = 0.999
eps_min = 0.05

env = CoordinationGame()

for episode in range(20000):
a0 = epsilon_greedy(Q0, eps)
a1 = epsilon_greedy(Q1, eps)

r, _ = env.step(a0, a1)

Q0[a0] += alpha * (r - Q0[a0])
Q1[a1] += alpha * (r - Q1[a1])

eps = max(eps_min, eps * eps_decay)

print("Agent0 Q:", dict(Q0))
print("Agent1 Q:", dict(Q1))

這當然不會解決 MARL,但它演示了一個真實原則:早期探索幫助智能體"找到"一個穩(wěn)定的協(xié)調(diào)慣例。


總結(jié)

一旦解決了單步協(xié)調(diào)問題,還會有三個問題會反復出現(xiàn):

虛假學習信號:智能體可能覺得"是自己動作導致了獎勵",實際上是另一個智能體的動作起了作用。

糟糕的均衡陷阱:在競爭性游戲里,智能體可能卡在穩(wěn)定但不強的弱策略上。

規(guī)模爆炸:多智能體的狀態(tài)和動作空間膨脹很快,需要更好的函數(shù)逼近(神經(jīng)網(wǎng)絡)、更好的訓練方案(CTDE),通常還需要更講究的環(huán)境設計。

應對這些問題沒有萬能解法,但有一些經(jīng)過驗證的思路。針對虛假學習信號,可以用 CTDE 架構(gòu)讓 Critic 看到全局信息,幫助每個智能體更準確地評估自己動作的貢獻。均衡陷阱的問題,自我對弈加上一定的探索機制能幫智能體跳出局部最優(yōu)。規(guī)模問題則需要參數(shù)共享、注意力機制等技術(shù)來降低復雜度。

實際項目中,建議先在概念上理解集中式 Critic 的工作原理,不用急著寫完整的深度 RL 代碼。這一步會改變你思考可觀測性和穩(wěn)定性的方式,后面上手具體算法會順暢很多。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 智能體
    +關(guān)注

    關(guān)注

    1

    文章

    469

    瀏覽量

    11604
  • 強化學習
    +關(guān)注

    關(guān)注

    4

    文章

    270

    瀏覽量

    11964
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    基于智能深度強化學習的體系任務分配方法

    為了應對在未來復雜的戰(zhàn)場環(huán)境下,由于通信受限等原因?qū)е碌募惺經(jīng)Q策模式難以實施的情況,提出了一個基于智能深度強化學習方法的分布式作戰(zhàn)體系任務分配
    的頭像 發(fā)表于 05-18 16:46 ?6494次閱讀
    基于<b class='flag-5'>多</b><b class='flag-5'>智能</b><b class='flag-5'>體</b>深度<b class='flag-5'>強化學習</b>的體系任務分配方法

    深度強化學習實戰(zhàn)

    測試)三、主講內(nèi)容1:課程一、強化學習簡介課程二、強化學習基礎課程三、深度強化學習基礎課程四、智能
    發(fā)表于 01-10 13:42

    介紹智能體系統(tǒng)的解決方案以及應用

    智能體系統(tǒng)深度強化學習:挑戰(zhàn)、解決方案和應用的回顧摘要介紹背景:強化學習前提貝爾曼方程RL方法深度強化學習:單
    發(fā)表于 07-12 08:44

    什么是強化學習?純強化學習有意義嗎?強化學習有什么的致命缺陷?

    強化學習是人工智能基本的子領(lǐng)域之一,在強化學習的框架中,智能通過與環(huán)境互動,來學習采取何種動作
    的頭像 發(fā)表于 07-15 10:56 ?1.9w次閱讀
    什么是<b class='flag-5'>強化學習</b>?純<b class='flag-5'>強化學習</b>有意義嗎?<b class='flag-5'>強化學習</b>有什么的致命缺陷?

    基于強化學習的MADDPG算法原理及實現(xiàn)

    之前接觸的強化學習算法都是單個智能強化學習算法,但是也有很多重要的應用場景牽涉到多個
    的頭像 發(fā)表于 11-02 16:18 ?2.3w次閱讀

    如何測試強化學習智能適應性

    強化學習(RL)能通過獎勵或懲罰使智能實現(xiàn)目標,并將它們學習到的經(jīng)驗轉(zhuǎn)移到新環(huán)境中。
    的頭像 發(fā)表于 12-24 09:29 ?3794次閱讀

    深度強化學習研究中首次將概率遞歸推理引入AI的學習過程

    在傳統(tǒng)的學習過程當中,有研究者在對其他智能建模 (也即“對手建?!? opponent modeling) 時使用了遞歸推理,但由于
    的頭像 發(fā)表于 03-05 08:52 ?5828次閱讀

    一種基于智能體協(xié)同強化學習的多目標追蹤方法

    矩陣對其進行求解得到多個追蹤智能的任務分配情況,并以縮短目標智能的追蹤路徑為優(yōu)化目標進行任務分工,同時利用
    發(fā)表于 03-17 11:08 ?20次下載
    一種基于<b class='flag-5'>多</b><b class='flag-5'>智能</b>體協(xié)同<b class='flag-5'>強化學習</b>的多目標追蹤方法

    一種新型的智能深度強化學習算法

    一種新型的智能深度強化學習算法
    發(fā)表于 06-23 10:42 ?36次下載

    《自動化學報》—Agent深度強化學習綜述

    突破.由于融合了深度學習強大的表征能力和強化學習有效的策略搜索能力,深度強化學習已經(jīng)成為實現(xiàn)人工智能頗有前景的學習范式.然而,深度
    發(fā)表于 01-18 10:08 ?2368次閱讀
    《自動<b class='flag-5'>化學</b>報》—<b class='flag-5'>多</b>Agent深度<b class='flag-5'>強化學習</b>綜述

    強化學習的基礎知識和6種基本算法解釋

    定標記訓練數(shù)據(jù)的情況下獲得正確的輸出 無監(jiān)督學習(UL):關(guān)注在沒有預先存在的標簽的情況下發(fā)現(xiàn)數(shù)據(jù)中的模式 強化學習(RL) : 關(guān)注智能在環(huán)境中如何采取行動以最大化累積獎勵 通俗地
    的頭像 發(fā)表于 12-20 14:00 ?1800次閱讀

    強化學習的基礎知識和6種基本算法解釋

    的情況下獲得正確的輸出無監(jiān)督學習(UL):關(guān)注在沒有預先存在的標簽的情況下發(fā)現(xiàn)數(shù)據(jù)中的模式強化學習(RL):關(guān)注智能在環(huán)境中如何采取行動以最大化累積獎勵通俗地說,強
    的頭像 發(fā)表于 01-05 14:54 ?1834次閱讀
    <b class='flag-5'>強化學習</b>的基礎知識和6種基本<b class='flag-5'>算法</b>解釋

    基于強化學習的目標檢測算法案例

    摘要:基于強化學習的目標檢測算法在檢測過程中通常采用預定義搜索行為,其產(chǎn)生的候選區(qū)域形狀和尺寸變化單一,導致目標檢測精確度較低。為此,在基于深度強化學習的視覺目標檢測算法基礎上,提出聯(lián)
    發(fā)表于 07-19 14:35 ?0次下載

    語言模型做先驗,統(tǒng)一強化學習智能,DeepMind選擇走這條通用AI之路

    的發(fā)展,從最早的 AlphaGo、AlphaZero 到后來的模態(tài)、多任務、具身 AI 智能 Gato,智能
    的頭像 發(fā)表于 07-24 16:55 ?1374次閱讀
    語言模型做先驗,統(tǒng)一<b class='flag-5'>強化學習</b><b class='flag-5'>智能</b><b class='flag-5'>體</b>,DeepMind選擇走這條通用AI之路

    如何使用 PyTorch 進行強化學習

    的計算圖和自動微分功能,非常適合實現(xiàn)復雜的強化學習算法。 1. 環(huán)境(Environment) 在強化學習中,環(huán)境是一個抽象的概念,它定義了智能
    的頭像 發(fā)表于 11-05 17:34 ?1656次閱讀