幫助中心 | 我的帳號 | 關於我們

強化學習(從原理到實踐)/跟我一起學人工智慧

  • 作者:李福林|責編:趙佳霓
  • 出版社:清華大學
  • ISBN:9787302682417
  • 出版日期:2025/03/01
  • 裝幀:平裝
  • 頁數:237
人民幣:RMB 69 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書是對強化學習演算法的綜合性講解書籍,內容包括主要的強化學習演算法的實現思路講解,以及主要的優化方法的原理講解。本書介紹的每個演算法都分為原理講解和代碼實現兩部分,代碼實現是為了通過實驗驗證原理部分的可行性。通過本書的學習,讀者可以快速地了解強化學習演算法的設計原理,掌握強化學習演算法的實現過程,並能研發屬於自己的強化學習演算法,了解各個演算法的優缺點,以及各個演算法適用的場景。
    本書共18章,分為強化學習基礎篇(第1章和第2章)介紹了強化學習中的基本概念。強化學習基礎演算法篇(第3?6章)介紹了Q Learning演算法、SARSA演算法、DQN演算法、Reniforce演算法。強化學習高級演算法篇(第7?12章)介紹了AC演員評委演算法、A2C優勢演員評委演算法、PPO近端策略優化演算法、DDPG深度確定性策略梯度演算法、TD3雙延遲深度確定性策略梯度演算法、SAC柔性演員評委演算法、模仿學習演算法。多智能體篇(第13章和第14章),介紹了在一個系統中存在多智能體時,各個智能體之間的合作、對抗等關係,以及各個智能體之間的通信策略。擴展演算法篇(第15?17章)介紹了CQL離線學習演算法、MPC環境學習演算法、HER目標導向演算法。SB3強化學習框架篇(第18章),介紹了強化學習框架SB3的使用方法。
    本書將使用最簡單淺顯的語言,帶領讀者快速地了解各個主要的強化學習演算法的設計思路,以及實現過程。通過本書各個章節的學習,讀者可以掌握主流的強化學習演算法的原理和實現方法,能夠讓讀者知其然也知其所以然,做到融會貫通。

作者介紹
李福林|責編:趙佳霓
    李福林,一個在IT領域摸爬滾打十多年的老程序員、培訓師,精通多種IT技術,具有軟體設計師職稱。分享了多部AI技術教程,受到了讀者的廣泛讚譽。現任職于陽獅集團,擔任演算法工程師職位。教學風格追求化繁為簡,務實而不空談,課程設計思路清晰,課程演繹說理透徹,對A領域技術有自己獨到的見解。

目錄
本書源碼
附贈資源
基礎篇
  第1章  強化學習概述
    1.1  強化學習的定義
    1.2  玩耍和學習
    1.3  對比傳統方法
    1.4  基於表格的直觀示例
    1.5  一般的學習過程
    1.6  小結
  第2章  Q函數和時序差分
    2.1  一個直觀的例子
    2.2  數學描述
    2.3  精確計算Q函數是困難的
    2.4  尋求Q函數
    2.5  小結
基礎演算法篇
  第3章  基於表格的強化學習方法
    3.1  代碼運行環境說明
    3.2  遊戲環境
      3.2.1  Gym包介紹
      3.2.2  定義遊戲環境
      3.2.3  遊戲環境操作方法介紹
    3.3  定義Q表
    3.4  強化學習的一般過程
      3.4.1  數據池的必要性
      3.4.2  異策略和同策略
    3.5  定義play函數和數據池
      3.5.1  定義play函數
      3.5.2  定義數據池
    3.6  使用時序差分方法更新Q表
    3.7  QLearning演算法
    3.8  SARSA演算法
    3.9  實現無數據池的SARSA演算法
    3.10  小結
  第4章  DQN演算法
    4.1  DQN演算法介紹
    4.2  平衡車遊戲環境
    4.3  定義神經網路模型
    4.4  數據部分的修改
      4.4.1  play函數的修改
      4.4.2  數據池的修改
    4.5  實現DQN演算法
    4.6  雙模型
    4.7  加權的數據池
    4.8  Double DQN
    4.9  Dueling DQN
    4.10  Noise DQN
    4.11  小結
  第5章  策略梯度

    5.1  基於策略的演算法
    5.2  一個直觀的例子
    5.3  數學表達
    5.4  小結
  第6章  Reinforce演算法
    6.1  基於策略的演算法
    6.2  組件修改
      6.2.1  遊戲環境
      6.2.2  神經網路模型
      6.2.3  play函數
    6.3  Reinforce演算法
    6.4  去基線
      6.4.1  去基線的目的
      6.4.2  實現去基線
    6.5  熵正則
      6.5.1  動作分佈概率收斂太快的弊端
      6.5.2  熵
      6.5.3  實現熵正則
    6.6  小結
高級演算法篇
  第7章  AC和A2C演算法
    7.1  時序差分和策略梯度的結合
    7.2  AC演算法介紹
    7.3  實現AC演算法
      7.3.1  定義模型
      7.3.2  訓練critic模型
      7.3.3  訓練actor模型
      7.3.4  執行訓練
    7.4  A2C演算法介紹
    7.5  實現A2C演算法
    7.6  小結
  第8章  近端策略優化
    8.1  重要性採樣
    8.2  懲罰與裁剪
      8.2.1  約束K?L散度法
      8.2.2  懲罰K?L散度法
      8.2.3  重要性採樣裁剪法
    8.3  優勢函數
    8.4  廣義優勢估計
    8.5  小結
  第9章  PPO演算法
    9.1  在離散動作環境中的應用
      9.1.1  定義模型
      9.1.2  訓練value模型
      9.1.3  訓練action模型
      9.1.4  執行訓練
    9.2  在連續動作環境中的應用
      9.2.1  倒立擺遊戲環境介紹
      9.2.2  定義模型
      9.2.3  定義play函數

      9.2.4  訓練value模型
      9.2.5  訓練action模型
      9.2.6  執行訓練
    9.3  小結
  第10章  DDPG和TD3演算法
    10.1  DDPG演算法概述
      10.1.1  確定的動作
      10.1.2  異策略化
    10.2  優化方法
    10.3  緩解過高估計
    10.4  DDPG演算法實現
      10.4.1  定義模型
      10.4.2  定義工具類和輔助函數
      10.4.3  定義訓練過程
    10.5  TD3演算法實現
      10.5.1  定義模型
      10.5.2  定義訓練過程
    10.6  小結
  第11章  SAC演算法
    11.1  SAC演算法簡介
      11.1.1  考慮動作的熵
      11.1.2  異策略化
    11.2  實現SAC演算法
      11.2.1  定義模型
      11.2.2  定義工具類和輔助函數
      11.2.3  訓練value模型
      11.2.4  訓練action模型
      11.2.5  執行訓練
      11.2.6  關於alpha的調整
    11.3  SAC演算法的簡化版實現
      11.3.1  定義模型
      11.3.2  訓練value模型
      11.3.3  訓練action模型
      11.3.4  執行訓練
    11.4  在連續動作環境中的應用
      11.4.1  定義模型
      11.4.2  value模型的輸入和輸出
      11.4.3  修改工具類和輔助函數
      11.4.4  訓練value模型
      11.4.5  訓練action模型
      11.4.6  執行訓練
    11.5  小結
  第12章  模仿學習
    12.1  模仿學習簡介
    12.2  在離散動作環境中的應用
      12.2.1  定義數據集
      12.2.2  定義模型
      12.2.3  執行訓練
      12.2.4  測試
    12.3  在連續動作環境中的應用

      12.3.1  定義數據集
      12.3.2  定義模型
      12.3.3  執行訓練
      12.3.4  測試
    12.4  小結
多智能體篇
  第13章  合作關係的多智能體
    13.1  多智能體簡介
      13.1.1  有通信的情況
      13.1.2  訓練時有通信的情況
      13.1.3  無通信的情況
    13.2  合作關係遊戲環境介紹
    13.3  定義A2C演算法
    13.4  有通信的實現
      13.4.1  定義模型
      13.4.2  修改play函數
      13.4.3  執行訓練
    13.5  訓練時有通信的實現
      13.5.1  修改模型
      13.5.2  執行訓練
    13.6  小結
  第14章  對抗關係的多智能體
    14.1  對抗關係的多智能體簡介
    14.2  納什均衡簡介
    14.3  遊戲環境介紹
    14.4  無通信的實現
      14.4.1  定義模型
      14.4.2  執行訓練
    14.5  訓練時有通信的實現
      14.5.1  定義模型
      14.5.2  執行訓練
    14.6  小結
擴展演算法篇
  第15章  CQL演算法
    15.1  離線學習簡介
    15.2  離線學習中Q值過高估計的問題
    15.3  CQL演算法是如何抑制Q值的
    15.4  實現CQL演算法
      15.4.1  數據集介紹
      15.4.2  封裝數據集
      15.4.3  定義演算法模型
      15.4.4  執行訓練
    15.5  小結
  第16章  MPC演算法
    16.1  MPC演算法簡介
      16.1.1  假環境學習
      16.1.2  最優動作搜索
    16.2  實現MPC演算法
      16.2.1  定義假環境
      16.2.2  定義動作函數

      16.2.3  訓練假環境
      16.2.4  重寫動作函數
      16.2.5  動作學習
    16.3  小結
  第17章  HER目標導向
    17.1  HER演算法概述
      17.1.1  稀疏反饋的遊戲環境
      17.1.2  放置假目標點
    17.2  HER演算法實現
      17.2.1  遊戲環境介紹
      17.2.2  定義演算法模型
      17.2.3  定義數據池
      17.2.4  執行訓練
    17.3  小結
框架篇
  第18章  SB3強化學習框架
    18.1  SB3簡介
    18.2  快速上手
    18.3  模型的保存和載入
    18.4  多環境並行訓練
    18.5  Callback類
    18.6  綜合實例
    18.7  使用SB3 Contrib
    18.8  小結

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032