幫助中心 | 我的帳號 | 關於我們

深度強化學習演算法原理與實戰(基於MATLAB)

  • 作者:編者:鄭一|責編:張賽//耍利娜
  • 出版社:化學工業
  • ISBN:9787122475756
  • 出版日期:2025/09/01
  • 裝幀:平裝
  • 頁數:339
人民幣:RMB 109 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書在詳細闡述強化學習基本概念與基本理論的基礎上,循序漸進地介紹了深度強化學習各常用演算法的基本思想、演算法偽代碼、演算法實現、基於實例的演算法演示與程序分析等內容。具體介紹了Q-learning演算法求解最優路徑問題,SARSA演算法求解最優安全路徑問題,策略迭代演算法求解兩地租車最優調度問題,價值迭代演算法求解最優路徑問題,DQN演算法求解平衡系統的最優控制問題,PG演算法求解雙積分系統的最優控制問題,AC類演算法求解股票交易的最優推薦策略,SAC演算法求解機器人手臂控球平衡問題,PPO演算法求解飛行器平穩著陸最優控制問題,DDPG演算法求解四足機器人行走控制策略問題,TD3演算法求解PID控制器參數整定問題,多智能體強化學習的基本概念與基本方法,MAPPO演算法求解多智能體協作運送物體問題,IPPO演算法與MAPPO演算法求解協作競爭探索區域問題,MADDPG與DDPG演算法求解車輛路徑跟蹤控制問題。
    本書可作為高等院校深度強化學習課程的教材,亦可作為本科生畢業設計、研究生項目設計和廣大科研人員的技術參考用書。

作者介紹
編者:鄭一|責編:張賽//耍利娜

目錄
第1章  強化學習的基本概念與基本理論
  1.1  強化學習研究的問題及基本概念
    1.1.1  一些強化學習研究實例
    1.1.2  智能體
    1.1.3  環境
    1.1.4  狀態及其觀測
    1.1.5  狀態轉移概率
    1.1.6  動作
    1.1.7  獎勵
    1.1.8  策略
  1.2  馬爾可夫決策過程
    1.2.1  馬爾可夫性質與轉移概率
    1.2.2  軌跡、回合及經驗轉換樣本
    1.2.3  回報及折現率
    1.2.4  馬爾可夫決策過程的數學記號及其含義
  1.3  強化學習的基本函數
    1.3.1  目標函數及其作用
    1.3.2  狀態價值函數及其作用
    1.3.3  動作價值函數及其作用
    1.3.4  Vπ(s)與Qπ(s, a)的互相表示關係
  1.4  貝爾曼方程理論
    1.4.1  Bellman方程及其作用
    1.4.2  最優策略及最優狀態價值函數
    1.4.3  最優動作價值函數及其作用
    1.4.4  Bellman最優方程及其作用
    1.4.5  求解Bellman方程的思路
  *1.5  神經網路的基本知識及幾個重要定理
    1.5.1  神經網路基本知識
    1.5.2  神經網路通用近似定理
    1.5.3  可微假設與矩陣點乘運算等基本知識
    1.5.4  梯度及梯度下降與神經網路權值參數更新公式
    1.5.5  數學期望基本知識
    1.5.6  循環迭代結果的存在性與唯一性
  1.6  本章小結
  習題1
第2章  Q-learning演算法求解最優路徑問題
  2.1  Q-learning演算法的基本思想
  2.2  ε-貪婪策略與時序差分演算法
    2.2.1  ε-貪婪策略及其作用
    2.2.2  時序差分演算法
  2.3  Q-learning演算法的實現
    2.3.1  Q-learning演算法的應用條件
    2.3.2  Q-learning演算法的偽代碼
    2.3.3  Q-learning演算法的程序步驟
    2.3.4  Q-learning演算法的收斂性
  2.4  Q-learning演算法實例:尋找最優路徑
    2.4.1  問題說明
    2.4.2  數學模型
    2.4.3  基於MATLAB自帶函數實現求解
    2.4.4  基於自編代碼實現求解

  2.5  Q-learning演算法的優缺點及演算法擴展
    2.5.1  Q-learning演算法的優缺點
    2.5.2  模型擴展
    2.5.3  演算法擴展
  2.6  本章小結
  習題2
第3章  SARSA演算法求解最優安全路徑問題
  3.1  SARSA演算法的基本思想
  3.2  SARSA演算法的實現
    3.2.1  SARSA演算法的偽代碼
    3.2.2  SARSA演算法的程序步驟
    3.2.3  on-policy和off-policy
    3.2.4  SARSA演算法的收斂性
  3.3  SARSA演算法實例:尋找最優安全路徑
    3.3.1  問題說明
    3.3.2  數學模型
    3.3.3  主程序代碼
    3.3.4  程序分析
  3.4  SARSA演算法與Q-learning演算法對比
    3.4.1  SARSA演算法的優缺點
    3.4.2  SARSA演算法與Q-learning演算法適用情況對比
    3.4.3  最優策略對比
    3.4.4  圖像對比分析
  3.5  本章小結
  習題3
第4章  策略迭代演算法求解兩地租車最優調度問題
  4.1  策略迭代演算法的基本思想
  4.2  策略迭代演算法的實現
    4.2.1  策略迭代演算法的應用條件
    4.2.2  策略迭代演算法的偽代碼
    4.2.3  策略迭代演算法的程序步驟
    4.2.4  策略迭代演算法的收斂性
  4.3  策略迭代演算法實例:尋找最優調度方案
    4.3.1  問題說明
    4.3.2  數學模型
    4.3.3  主程序代碼
    4.3.4  程序分析
    4.3.5  程序結果解讀
  4.4  策略迭代演算法的優缺點及演算法擴展
    4.4.1  策略迭代演算法的優缺點
    4.4.2  模型擴展
    4.4.3  演算法擴展
  4.5  本章小結
  習題4
第5章  價值迭代演算法求解最優路徑問題
  5.1  價值迭代演算法的基本思想
  5.2  價值迭代演算法的實現
    5.2.1  價值迭代演算法的應用條件
    5.2.2  價值迭代演算法的偽代碼
    5.2.3  價值迭代演算法的程序步驟

    5.2.4  價值迭代演算法的收斂性
    5.2.5  價值迭代演算法與策略迭代演算法的聯繫與區別
  5.3  價值迭代演算法實例:尋找最優路徑
    5.3.1  問題說明
    5.3.2  數學模型
    5.3.3  主程序代碼
    5.3.4  程序分析
    5.3.5  程序結果解讀
  5.4  價值迭代演算法的優缺點及演算法擴展
    5.4.1  價值迭代演算法的優缺點
    5.4.2  模型擴展
    5.4.3  演算法擴展
  5.5  本章小結
  習題5
第6章  DQN演算法求解平衡系統的最優控制問題
  6.1  DQN演算法的基本思想
  6.2  經驗回放技術與目標網路技術
    6.2.1  經驗回放技術與重要性採樣及其作用
    6.2.2  當前網路與目標網路
  6.3  DQN演算法的實現
    6.3.1  DQN演算法的應用條件
    6.3.2  DQN演算法的偽代碼
    6.3.3  DQN演算法的流程與程序步驟
    6.3.4  DQN演算法的收斂性
  6.4  DQN演算法實例:求解平衡系統最優控制策略
    6.4.1  問題說明
    6.4.2  數學模型
    6.4.3  主程序代碼
    6.4.4  程序分析
    6.4.5  程序結果解讀
  6.5  代碼程序細化
    6.5.1  問題改進說明
    6.5.2  主程序代碼
    6.5.3  程序分析
    6.5.4  程序結果解讀
  6.6  強化學習演算法的性能指標
    6.6.1  任務累計獎勵
    6.6.2  收斂回合與收斂速度
    6.6.3  收斂平穩性
    6.6.4  最優策略魯棒性
    6.6.5  最優策略泛化力
    6.6.6  程序的性能測試
  6.7  DQN演算法的優缺點及演算法擴展
    6.7.1  DQN演算法的優缺點
    6.7.2  模型擴展
    6.7.3  演算法擴展
  6.8  本章小結
  習題6
第7章  PG演算法求解雙積分系統的最優控制問題
  7.1  PG演算法的基本思想

  7.2  策略參數優化問題及策略梯度定理
    7.2.1  策略梯度及其策略參數優化問題
    7.2.2  策略梯度定理及其幾個變形
  7.3  REINFORCE演算法及其偽代碼
    7.3.1  蒙特卡洛方法近似估計策略梯度
    7.3.2  REINFORCE演算法的偽代碼
  7.4  帶基線的策略梯度定理及演員網路與評委網路
    7.4.1  帶基線的策略梯度定理
    7.4.2  基線網路、演員網路與評委網路
  7.5  PG演算法的實現
    7.5.1  PG演算法的應用條件
    7.5.2  PG演算法的偽代碼
    7.5.3  PG演算法的程序步驟
    7.5.4  PG演算法的收斂性
  7.6  PG演算法實例:求解雙積分系統的最優控制策略
    7.6.1  問題說明
    7.6.2  數學模型
    7.6.3  主程序代碼
    7.6.4  程序分析
    7.6.5  程序結果解讀
  7.7  PG演算法的優缺點及演算法擴展
    7.7.1  PG演算法的優缺點
    7.7.2  模型擴展
    7.7.3  演算法擴展
  7.8  本章小結
  習題7
第8章  AC類演算法求解股票交易最優推薦策略
  8.1  AC演算法的基本思想
  8.2  AC演算法的實現
    8.2.1  AC演算法的應用條件
    8.2.2  AC演算法的偽代碼
    8.2.3  AC演算法的程序步驟
    8.2.4  A2C演算法
    8.2.5  A3C演算法
    8.2.6  AC類演算法的收斂性
  8.3  AC演算法實例:求解股票交易最優推薦策略問題
    8.3.1  問題說明
    8.3.2  數學模型
    8.3.3  主程序代碼
    8.3.4  程序分析
    8.3.5  程序結果解讀
  8.4  AC演算法的優缺點及演算法擴展
    8.4.1  AC演算法的優缺點
    8.4.2  模型擴展
    8.4.3  演算法擴展
  8.5  本章小結
  習題8
第9章  SAC演算法求解機器人手臂控球平衡問題
  9.1  SAC演算法的基本思想
  9.2  最大熵強化學習

    9.2.1  信息熵概念及其作用與策略熵
    9.2.2  最大熵強化學習基本知識
  9.3  SAC演算法的實現
    9.3.1  SAC演算法的應用條件
    9.3.2  SAC演算法的偽代碼
    9.3.3  SAC演算法的程序步驟
    9.3.4  SAC演算法的收斂性
  9.4  SAC演算法實例:求解機器人手臂控球平衡問題
    9.4.1  問題說明
    9.4.2  數學模型
    9.4.3  主程序代碼
    9.4.4  程序分析
    9.4.5  程序結果解讀
  9.5  SAC演算法的優缺點及演算法擴展
    9.5.1  SAC演算法的優缺點
    9.5.2  模型擴展
    9.5.3  演算法擴展
  9.6  本章小結
  習題9
第10章  PPO演算法求解飛行器平穩著陸最優控制問題
  10.1  PPO演算法的基本思想
  10.2  PPO演算法涉及的關鍵技術
    10.2.1  TRPO演算法
    10.2.2  PPO演算法的兩個技巧
  10.3  PPO演算法的實現
    10.3.1  PPO演算法的應用條件
    10.3.2  廣義優勢估計(GAE)
    10.3.3  PPO演算法的偽代碼
    10.3.4  PPO演算法的程序步驟
    10.3.5  PPO演算法的收斂性
  10.4  PPO演算法實例:求解飛行器平穩著陸最優控制問題
    10.4.1  問題說明
    10.4.2  數學模型
    10.4.3  主程序代碼
    10.4.4  程序分析
    10.4.5  程序結果解讀
  10.5  PPO演算法的優缺點及演算法擴展
    10.5.1  PPO演算法的優缺點
    10.5.2  模型擴展
    10.5.3  演算法擴展
  10.6  本章小結
  習題10
第11章  DDPG演算法求解四足機器人行走控制策略問題
  11.1  DDPG演算法的基本思想
  11.2  隨機性策略與確定性策略的聯繫與對比
  11.3  DDPG演算法網路結構及其邏輯關係
  11.4  DDPG演算法的實現
    11.4.1  DDPG演算法的應用條件
    11.4.2  DDPG演算法的偽代碼
    11.4.3  DDPG演算法的程序步驟

    11.4.4  DDPG演算法的收斂性
  11.5  DDPG演算法實例:求解四足機器人行走控制策略問題
    11.5.1  問題說明
    11.5.2  數學模型
    11.5.3  主程序代碼
    11.5.4  程序分析
    11.5.5  程序結果解讀
  11.6  DDPG演算法的優缺點及演算法擴展
    11.6.1  DDPG演算法的優缺點
    11.6.2  模型擴展
    11.6.3  演算法擴展
  11.7  本章小結
  習題11
第12章  TD3演算法求解PID控制器參數整定問題
  12.1  TD3演算法的基本思想
  12.2  TD3演算法的實現
    12.2.1  TD3演算法的應用條件
    12.2.2  TD3演算法的偽代碼
    12.2.3  TD3演算法的程序步驟
    12.2.4  TD3演算法的收斂性
  12.3  TD3演算法實例:求解PID控制水箱液位問題
    12.3.1  問題說明
    12.3.2  數學模型
    12.3.3  主程序代碼
    12.3.4  程序分析
    12.3.5  程序結果解讀
  12.4  TD3智能體與PID控制器參數整定結果對比分析
    12.4.1  PID控制器參數整定簡介
    12.4.2  TD3演算法及PID控制器參數整定程序
    12.4.3  TD3演算法及PID控制器參數整定結果對比分析
  12.5  TD3演算法的優缺點及演算法擴展
    12.5.1  TD3演算法的優缺點
    12.5.2  模型擴展
    12.5.3  演算法擴展
  12.6  本章小結
  習題12
第13章  多智能體強化學習的基本概念與基本方法
  13.1  多智能體強化學習概述
    13.1.1  多智能體與單智能體強化學習的聯繫與區別
    13.1.2  多智能體強化學習的實際問題舉例
    13.1.3  多智能體強化學習的具體內容
    13.1.4  多智能體系統類型分類
  13.2  多智能體強化學習基礎知識
    13.2.1  多智能體強化學習的基本概念
    13.2.2  多智能體強化學習的相關基本理論
    13.2.3  多智能體強化學習的基本方法
  13.3  多智能體強化學習的基本函數
    13.3.1  策略函數
    13.3.2  動作價值函數及其作用
    13.3.3  狀態價值函數及其作用

    13.3.4  優勢函數
    13.3.5  動作評估函數
    13.3.6  最佳響應策略
    13.3.7  納什均衡
    13.3.8  帕累托(Pareto)非劣策略
  13.4  本章小結
  習題13
第14章  MAPPO演算法求解多智能體協作運送物體問題
  14.1  MAPPO演算法的基本思想
  14.2  MAPPO演算法的實現
    14.2.1  MAPPO演算法的應用條件
    14.2.2  MAPPO演算法的偽代碼
    14.2.3  MAPPO演算法的程序步驟
    14.2.4  MAPPO演算法的收斂性
  14.3  MAPPO演算法實例:求解多智能體協作運送物體問題
    14.3.1  問題說明
    14.3.2  數學模型
    14.3.3  主程序代碼
    14.3.4  程序分析
    14.3.5  程序結果解讀
  14.4  分散式訓練與集中式訓練對比分析
    14.4.1  分散式與集中式訓練程序組合方案
    14.4.2  不同訓練方案的訓練進程對比分析
    14.4.3  MAPPO演算法的模擬結果對比分析
  14.5  MAPPO演算法的優缺點及演算法擴展
    14.5.1  MAPPO演算法的優缺點
    14.5.2  模型擴展
    14.5.3  演算法擴展
  14.6  本章小結
  習題14
第15章  IPPO演算法與MAPPO演算法求解協作競爭探索區域問題
  15.1  IPPO演算法的基本思想
  15.2  IPPO演算法的實現
    15.2.1  IPPO演算法的應用條件
    15.2.2  IPPO演算法的偽代碼
    15.2.3  IPPO演算法的程序步驟
    15.2.4  IPPO演算法的收斂性
  15.3  IPPO演算法實例:求解多智能體協作競爭探索區域問題
    15.3.1  問題說明
    15.3.2  數學模型
    15.3.3  主程序代碼
    15.3.4  程序分析
    15.3.5  程序結果解讀
  15.4  IPPO與MAPPO演算法程序及其結果對比分析
    15.4.1  IPPO演算法程序與MAPPO演算法程序差別
    15.4.2  5個訓練方案的訓練進程對比分析
    15.4.3  IPPO演算法與MAPPO演算法模擬測試結果對比分析
  15.5  IPPO演算法的優缺點及演算法擴展
    15.5.1  IPPO演算法的優缺點
    15.5.2  模型擴展

    15.5.3  演算法擴展
  15.6  本章小結
  習題15
第16章  MADDPG與DDPG演算法求解車輛路徑跟蹤控制問題
  16.1  MADDPG演算法的基本思想
  16.2  MADDPG演算法的實現
    16.2.1  MADDPG演算法的應用條件
    16.2.2  MADDPG演算法的偽代碼
    16.2.3  MADDPG演算法的程序步驟
    16.2.4  MADDPG演算法的收斂性
  16.3  MADDPG演算法實例:求解車輛路徑跟蹤控制問題
    16.3.1  問題說明
    16.3.2  數學模型
    16.3.3  主程序代碼
    16.3.4  程序分析
    16.3.5  程序結果解讀
  16.4  MADDPG與DDPG演算法的對比分析
    16.4.1  兩個自帶函數程序對比
    16.4.2  訓練進程對比分析
    16.4.3  模擬結果對比分析
  16.5  MADDPG演算法的優缺點及演算法擴展
    16.5.1  MADDPG演算法的優缺點
    16.5.2  模型擴展
    16.5.3  演算法擴展
  16.6  本章小結
  習題16
參考文獻
附錄  符號說明

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032