久草免费高清完整在线观看,亚洲综合在线电影,亚洲自排导航最黄色无码电影

本文轉(zhuǎn)自：DeepHub IMBA

作者：Syntal

訓練單個 RL 智能體的過程非常簡單，那么我們現(xiàn)在換一個場景，同時訓練五個智能體，而且每個都有自己的目標、只能看到部分信息，還能互相幫忙。

這就是多智能體強化學習（Multi-Agent Reinforcement Learning，MARL），但是這樣會很快變得混亂。

什么是多智能體強化學習

MARL 是多個決策者（智能體）在同一環(huán)境中交互的強化學習。

環(huán)境類型可以很不一樣。競爭性的，比如國際象棋，一方贏一方輸。合作性的，比如團隊運動，大家共享目標。還有混合型的，更像現(xiàn)實生活——現(xiàn)在是隊友，過會兒可能是對手，有時候兩者同時存在。

但是這里有一個關(guān)鍵的問題：從任何一個智能體的視角看世界變成了非平穩(wěn)的，因為其他智能體也在學習、在改變行為。也就是說在學規(guī)則的時候，規(guī)則本身也在變。

MARL 在現(xiàn)實中的位置

單智能體 RL 適合系統(tǒng)只有一個"大腦"的情況，而MARL 則出現(xiàn)在世界有多個"大腦"的時候。

現(xiàn)實世界中有很多這樣的案例，比如交通信號控制：每個路口是一個智能體，一個信號燈"貪婪"了，下游路口就會卡死；倉庫機器人：每個機器人自己選路徑，碰撞和擁堵天然是多智能體問題；廣告競價和市場：智能體用不斷變化的策略爭奪有限資源；網(wǎng)絡安全：攻擊者和防御者是相互適應的智能體對；在線游戲和模擬：協(xié)調(diào)、欺騙、配合、自我對弈——這些都是MARL 的經(jīng)典試驗場。

核心概念

大多數(shù)真實場景中，智能體只能看到狀態(tài)的一部分。所以 MARL 里的策略通常基于局部觀測，而不是完整的全局狀態(tài)。

單智能體 RL 里環(huán)境動態(tài)是穩(wěn)定的，而MARL 不一樣"環(huán)境"包括其他智能體。它們在學習，你的轉(zhuǎn)移動態(tài)也就跟著變了。

這正是經(jīng)典的 Qlearn在多智能體環(huán)境里容易震蕩、甚至崩潰的原因。

合作任務中團隊拿到獎勵，但功勞該算誰的？團隊成功了，是智能體 2 的動作起了作用，還是智能體 5 在 10 步之前的作用？這就是信用分配問題，這是MARL 里最頭疼的實際難題之一。

集中式與分布式

集中訓練、分布式執(zhí)行（CTDE）

這是目前最常見的模式。訓練時智能體可以用額外信息，比如全局狀態(tài)或其他智能體的動作。執(zhí)行時每個智能體只根據(jù)自己的局部觀測行動。

這樣的好處是，既有集中學習的穩(wěn)定性，又不需要在運行時獲取不現(xiàn)實的全局信息。

完全分布式學習

智能體只從局部經(jīng)驗學習。這個聽起來是對的，而且簡單任務也能用。但實際中往往不夠穩(wěn)定，合作任務尤其如此。

算法總覽

合作性基于價值的方法：Independent Q-Learning（IQL）是最簡單的基線，容易實現(xiàn)但通常不穩(wěn)定；VDN 和 QMIX 通過混合各智能體的價值來學全局團隊價值，合作處理得更好。

策略梯度和 Actor-Critic 方法：MADDPG 用集中式 Critic 配分布式 Actor，概念上是很好的切入點；MAPPO 在很多合作任務里是靠譜的默認選擇。

自我對弈（Self-play）：和自己不同版本對打來建立泛化的策略。思路簡單粗暴效果也很好。

用 Python 從零搭一個小 MARL 環(huán)境

來做個玩具游戲：兩個智能體必須協(xié)調(diào)。經(jīng)典設定——兩者選同一個動作才有獎勵。每個智能體選 0 或 1，動作一致拿 +1，不一致拿 0。

我們這里刻意設計得簡單，這樣方便我們聚焦在 MARL 機制本身。

import random
from collections import defaultdict

class CoordinationGame:
def step(self, a0, a1):
reward = 1 if a0 == a1 else 0
done = True # single-step episode
return reward, done

接下來是最小化的 Independent Q-Learning 設置，每個智能體學自己的 Q 表。這里沒有狀態(tài)，Q 只取決于動作。

def epsilon_greedy(Q, eps=0.1):
if random.random() < eps: ?
return random.choice([0, 1])
return 0 if Q[0] >= Q[1] else 1

Q0 = defaultdict(float) # Q0[action]
Q1 = defaultdict(float) # Q1[action]

alpha = 0.1
eps = 0.2
env = CoordinationGame()

for episode in range(5000):
a0 = epsilon_greedy(Q0, eps)
a1 = epsilon_greedy(Q1, eps)

r, done = env.step(a0, a1)

# One-step update (no next-state)
Q0[a0] += alpha * (r - Q0[a0])
Q1[a1] += alpha * (r - Q1[a1])

# Inspect learned preferences
print("Agent0 Q:", dict(Q0))
print("Agent1 Q:", dict(Q1))

多數(shù)運行會收斂到兩種"慣例"之一：兩者都學會總是選 0，或者都學會總是選 1。

這就是協(xié)調(diào)從學習中涌現(xiàn)出來的樣子。雖然小但和大型合作 MARL 系統(tǒng)里依賴的模式是同一類東西。

這個玩具例子太友好了。難一點的任務里，IQL 常常變得不穩(wěn)定，因為每個智能體都在追一個移動靶。

讓例子更"MARL"一點

常見技巧是加共享團隊獎勵，同時保證足夠長的探索期來發(fā)現(xiàn)協(xié)調(diào)，下面是一個帶衰減 epsilon 的訓練循環(huán)：

Q0 = defaultdict(float)
Q1 = defaultdict(float)

alpha = 0.1
eps = 0.9
eps_decay = 0.999
eps_min = 0.05

env = CoordinationGame()

for episode in range(20000):
a0 = epsilon_greedy(Q0, eps)
a1 = epsilon_greedy(Q1, eps)

r, _ = env.step(a0, a1)

Q0[a0] += alpha * (r - Q0[a0])
Q1[a1] += alpha * (r - Q1[a1])

eps = max(eps_min, eps * eps_decay)

print("Agent0 Q:", dict(Q0))
print("Agent1 Q:", dict(Q1))

這當然不會解決 MARL，但它演示了一個真實原則：早期探索幫助智能體"找到"一個穩(wěn)定的協(xié)調(diào)慣例。

總結(jié)

一旦解決了單步協(xié)調(diào)問題，還會有三個問題會反復出現(xiàn)：

虛假學習信號：智能體可能覺得"是自己動作導致了獎勵"，實際上是另一個智能體的動作起了作用。

糟糕的均衡陷阱：在競爭性游戲里，智能體可能卡在穩(wěn)定但不強的弱策略上。

規(guī)模爆炸：多智能體的狀態(tài)和動作空間膨脹很快，需要更好的函數(shù)逼近（神經(jīng)網(wǎng)絡）、更好的訓練方案（CTDE），通常還需要更講究的環(huán)境設計。

應對這些問題沒有萬能解法，但有一些經(jīng)過驗證的思路。針對虛假學習信號，可以用 CTDE 架構(gòu)讓 Critic 看到全局信息，幫助每個智能體更準確地評估自己動作的貢獻。均衡陷阱的問題，自我對弈加上一定的探索機制能幫智能體跳出局部最優(yōu)。規(guī)模問題則需要參數(shù)共享、注意力機制等技術(shù)來降低復雜度。

實際項目中，建議先在概念上理解集中式 Critic 的工作原理，不用急著寫完整的深度 RL 代碼。這一步會改變你思考可觀測性和穩(wěn)定性的方式，后面上手具體算法會順暢很多。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴