幫助中心 | 我的帳號 | 關於我們

深入淺出強化學習(編程實戰)

  • 作者:郭憲//宋俊瀟//方勇純|責編:劉皎
  • 出版社:電子工業
  • ISBN:9787121367465
  • 出版日期:2020/03/01
  • 裝幀:平裝
  • 頁數:264
人民幣:RMB 89 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書是《深入淺出強化學習:原理入門》的姊妹篇,寫作的初衷是通過編程實例幫助那些想要學習強化學習演算法的讀者更深入、更清楚地理解演算法。
    本書首先介紹馬爾可夫決策過程的理論框架,然後介紹基於動態規劃的策略迭代演算法和值迭代演算法,在此基礎上分3篇介紹了目前強化學習演算法中最基本的演算法。第1篇講解基於值函數的強化學習演算法,介紹了基於兩種策略評估方法(蒙特卡洛策略評估和時間差分策略評估)的強化學習演算法,以及如何將函數逼近的方法引入強化學習演算法中。第2篇講解直接策略搜索方法,介紹了基本的策略梯度方法、AC方法、PPO方法和DDPG演算法。第3篇講解基於模型的強化學習方法,介紹了基於MPC的方法、AlphaZero演算法基本原理及在五子棋上的具體實現細節。建議讀者根據書中的代碼親自動手編程,並修改程序中的超參數,根據運行結果不斷體會演算法原理。

作者介紹
郭憲//宋俊瀟//方勇純|責編:劉皎

目錄
第0篇  先導篇
  1  一個極其簡單的強化學習實例
    1.1  多臂賭博機
      1.1.1  greedy策略
      1.1.2  玻爾茲曼策略
      1.1.3  UCB 策略
    1.2  多臂賭博機代碼實現
  2  馬爾可夫決策過程
    2.1  從多臂賭博機到馬爾可夫決策過程
    2.2  馬爾可夫決策過程代碼實現
第1篇  基於值函數的方法
  3  基於動態規劃的方法
    3.1  策略迭代與值迭代
      3.1.1  策略迭代演算法原理
      3.1.2  值迭代演算法原理
    3.2  策略迭代和值迭代的代碼實現
      3.2.1  鴛鴦環境的修改
      3.2.2  策略迭代演算法代碼實現
      3.2.3  值迭代演算法代碼實現
  4  基於蒙特卡洛的方法
    4.1  蒙特卡洛演算法原理
    4.2  蒙特卡洛演算法的代碼實現
      4.2.1  環境類的修改和蒙特卡洛演算法類的聲明
      4.2.2  探索初始化蒙特卡洛演算法實現
      4.2.3  同策略蒙特卡洛演算法實現
  5  基於時間差分的方法
    5.1  從動態規劃到時間差分強化學習
    5.2  時間差分演算法代碼實現
      5.2.1  時間差分演算法類的聲明
      5.2.2  SARSA 演算法
      5.2.3  Q-Learning 演算法
  6  基於函數逼近的方法
    6.1  從表格型強化學習到線性函數逼近強化學習
      6.1.1  表格特徵表示
      6.1.2  固定稀疏表示
      6.1.3  參數的訓練
    6.2  基於線性函數逼近的Q-Learning 演算法實現
    6.3  非線性函數逼近DQN 演算法代碼實現
第2篇  直接策略搜索的方法
  7  策略梯度方法
    7.1  演算法基本原理及代碼架構
      7.1.1  策略的表示問題
      7.1.2  隨機策略梯度的推導
      7.1.3  折扣累積回報
      7.1.4  代碼架構
    7.2  離散動作:CartPole 實例解析及編程實戰
      7.2.1  CartPole 簡介
      7.2.2  問題分析及MDP 模型
      7.2.3  採樣類的Python 源碼實現
      7.2.4  策略網路模型分析

      7.2.5  策略網路類的Python 源碼實現
      7.2.6  策略網路的訓練與測試
      7.2.7  用策略梯度法求解Cartpole 的主函數
      7.2.8  CartPole 模擬環境開發
    7.3  連續動作Pendulum 實例解析及編程實戰
      7.3.1  Pendulum 簡介
      7.3.2  採樣類的Python 源代碼實現
      7.3.3  策略網路模型分析
      7.3.4  策略網路類的Python 源碼實現
      7.3.5  策略網路的訓練與測試
      7.3.6  用策略梯度法求解Pendulum 的主函數
      7.3.7  Pendulum 模擬環境開發
  8  Actor-Critic 方法
    8.1  Actor-Critic 原理及代碼架構
      8.1.1  Actor-Critic 基本原理
      8.1.2  Actor-Critic 演算法架構
    8.2  TD-AC 演算法
      8.2.1  採樣類的Python 源碼
      8.2.2  策略網路的Python 源碼
      8.2.3  策略訓練和測試
      8.2.4  主函數及訓練效果
    8.3  Minibatch-MC-AC 演算法
      8.3.1  Minibatch-MC-AC 演算法框架
      8.3.2  採樣類的Python 源碼
      8.3.3  策略網路的Python 源碼
      8.3.4  策略的訓練和測試
      8.3.5  主函數及訓練效果
  9  PPO方法
    9.1  PPO演算法基本原理及代碼結構
    9.2  Python源碼解析
      9.2.1  採樣類
      9.2.2  策略網路
      9.2.3  策略的訓練和測試
      9.2.4  主函數及訓練效果
  10  DDPG方法
    10.1  DDPG基本
    10.2  Python源碼解析
      10.2.1  經驗緩存器類
      10.2.2  策略網路
      10.2.3  訓練和測試
      10.2.4  主函數及訓練效果
第3篇 基於模型的強化學習方法
  11  基於模型預測控制的強化學習演算法
    11.1  基於模型的強化學習演算法的基本原理
      11.1.1  神經網路擬合動力學模型
      11.1.2  模型預測控制
      11.1.3  基於模型的強化學習演算法偽代碼
    11.2  Python 源碼實現及解析
      11.2.1  數據收集類
      11.2.2  數據採樣類

      11.2.3  動力學網路類
      11.2.4  模型預測控制器類
      11.2.5  模型訓練和預測函數
      11.2.6  主函數
  12  AlphaZero 原理淺析
    12.1  從AlphaGo 到AlphaZero
    12.2  蒙特卡洛樹搜索演算法
      12.2.1  博弈樹和極小極大搜索
      12.2.2  再論多臂老虎機問題
      12.2.3  UCT 演算法
    12.3  基於自我對弈的強化學習
      12.3.1  基於MCTS 的自我對弈
      12.3.2  策略價值網路的訓練
  13  AlphaZero 實戰:從零學下五子棋
    13.1  構建簡易的五子棋環境
    13.2  建立整體演算法流程
    13.3  實現蒙特卡洛樹搜索
    13.4  實現策略價值網路
    13.5  訓練實驗與效果評估
附錄A PyTorch 入門
  A.1  PyTorch 基礎知識
    A.1.1  Tensor
    A.1.2  基礎操作
    A.1.3  Tensor 和NumPy array 間的轉化
    A.1.4  Autograd:自動梯度
  A.2  PyTorch 中的神經網路
    A.2.1  如何定義神經網路
    A.2.2  如何訓練神經網路
    A.2.3  在CIFAR-10數據集上進行訓練和測試
    A.2.4  模型的保存和載入
參考文獻
後記

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032