幫助中心 | 我的帳號 | 關於我們

基於深度強化學習的多智能體協同演算法關鍵技術研究/博士論叢

  • 作者:王思穎//陳文宇//劉嶠|責編:謝曉輝
  • 出版社:電子科大
  • ISBN:9787577015774
  • 出版日期:2026/02/01
  • 裝幀:平裝
  • 頁數:211
人民幣:RMB 86 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書以提高多智能體強化學習協同演算法的訓練效率為核心,依托多智能體粒子環境和星際爭霸II遊戲環境等具體的應用場景,圍繞著環境信息利用不充分、模型訓練時序差分誤差較大、值分解方法表示能力不全以及離線數據集的分佈偏移這四個導致訓練低效的關鍵問題展開研究。
    本書主要內容包括:1.針對多智能體協同演算法在環境中信息利用不充分的問題,從圖網路角度出發提出一種新的基於協同圖信息補全的多智能體協同演算法;2.提出一種新的基於自適應正則Anderson加速的多智能體協同演算法;3.提出一種新的面向值函數分解的多智能體協同策略融合演算法;4.提出一種面向離線多智能體強化學習的基於雜訊注入的自監督式離線數據狀態表徵增強演算法。
    本書適合相關領域研究人員閱讀參考。

作者介紹
王思穎//陳文宇//劉嶠|責編:謝曉輝

目錄
第一章  緒論
  1.1  研究內容的背景與意義
  1.2  多智能體強化學習協同演算法的研究現狀
    1.2.1  基於通信交流決策的多智能體強化學習研究現狀
    1.2.2  基於自主信息決策的多智能體強化學習研究現狀
  1.3  多智能體強化學習面臨的關鍵問題
    1.3.1  環境信息利用不充分的問題
    1.3.2  模型更新時序差分誤差較大的問題
    1.3.3  值分解方法表示能力不全的問題
    1.3.4  離線數據的分佈偏移的問題
  1.4  主要貢獻與創新
  1.5  本書結構安排
第二章  相關研究理論與基礎
  2.1  強化學習基礎理論
  2.2  強化學習基本演算法
    2.2.1  基於值函數的深度強化學習
    2.2.2  基於Actor-Critic的深度強化學習
  2.3  多智能體強化學習基礎概念
  2.4  多智能體強化學習基本演算法
    2.4.1  完全獨立式學習的多智能體演算法
    2.4.2  集中式學習-分散式執行的多智能體演算法
  2.5  強化學習演算法與各章節的對應關係
  2.6  本章小結
第三章  基於協同圖信息增強的多智能體協同演算法
  3.1  引言
  3.2  多智能體集中式訓練演算法基礎
    3.2.1  中心化訓練-分散式執行框架
    3.2.2  圖卷積神經網路和注意力機制
  3.3  基於協同圖信息增強的多智能體協同演算法
    3.3.1  演算法總覽
    3.3.2  基於注意力機制的歸因模塊
    3.3.3  簡化加權圖模塊
    3.3.4  AWGmix的具體實現步驟
  3.4  實驗與結果分析
    3.4.1  實驗環境介紹與參數設置
    3.4.2  對比評估結果
    3.4.3  消融實驗
  3.5  本章小結
第四章  基於自適應正則Anderson加速的多智能體協同演算法
  4.1  引言
  4.2  Dec-POMDP與CTDE訓練框架
    4.2.1  Dec-POMDP
    4.2.2  CTDE框架與相關演算法
    4.2.3  Anderson加速及其在值迭代中的應用
  4.3  多智能體場景中的RA3方法
    4.3.1  聯合狀態-動作值函數中的AA
    4.3.2  AA中的自適應正則化
    4.3.3  RA3在多智能體強化學習演算法中的具體應用步驟
  4.4  實驗與結果分析
    4.4.1  實驗環境介紹與參數設置

    4.4.2  對比評估結果
    4.4.3  消融實驗
  4.5  本章小結
第五章  基於值分解信息融合的多智能體協同演算法
  5.1  引言
  5.2  馬爾可夫博弈與值函數分解原理
    5.2.1  馬爾可夫博弈
    5.2.2  值函數分解
  5.3  值函數分解融合方法
    5.3.1  值函數表達能力不受限的值分解方法
    5.3.2  值函數表達能力受限的值分解方法
    5.3.3  VDF方法中的策略拓展
    5.3.4  VDF方法的具體實施步驟
  5.4  實驗與結果分析
    5.4.1  實驗環境介紹與參數設置
    5.4.2  對比評估結果
    5.4.3  消融實驗
  5.5  本章小結
第六章  基於雜訊注入的自監督式離線數據狀態表徵增強方法
  6.1  引言
  6.2  自監督式的離線強化學習相關原理
    6.2.1  離線強化學習
    6.2.2  強化學習範式中的自監督學習
    6.2.3  基於雜訊注入的特徵變換方式
  6.3  基於雜訊注入的離線多智能體狀態特徵增強方法
    6.3.1  狀態信息增強的必要性
    6.3.2  基於雜訊注入的自監督式狀態信息增強方法
    6.3.3  基於雜訊注入的狀態信息增強演算法應用步驟
  6.4  實驗與結果分析
    6.4.1  實驗環境介紹與參數設置
    6.4.2  對比評估結果
    6.4.3  消融實驗
  6.5  本章小結
第七章  總結與展望
  7.1  研究總結
  7.2  工作展望
後記
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032