幫助中心 | 我的帳號 | 關於我們

深度強化學習理論與實踐/電腦技術開發與應用叢書

  • 作者:編者:龍強//章勝|責編:趙佳霓
  • 出版社:清華大學
  • ISBN:9787302625544
  • 出版日期:2023/03/01
  • 裝幀:平裝
  • 頁數:355
人民幣:RMB 89 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書比較全面、系統地介紹了深度強化學習的理論和演算法,並配有大量的案例和編程實現的代碼。全書核心內容可以分為3部分,第一部分為經典強化學習,包括第2?4章,主要內容有動態規劃法、蒙特卡羅法、時序差分法;第二部分為深度強化學習,包括第6?8章,主要內容有值函數近似演算法、策略梯度演算法、策略梯度法進階;第三部分重點介紹深度強化學習的經典應用案例——AlphaGo系列演算法。另外,作為理論和演算法的輔助,第1章介紹強化學習的模型,第5章簡單介紹深度學習和PyTorch。
    本書對理論、模型和演算法的描述比較數學化,筆者力求做到用嚴謹、清晰、簡潔的數學語言來寫作;幾乎每個演算法配有一個或多個測試案例,便於讀者理解理論和演算法;每個案例都配有編程實現的代碼,便於讀者理論聯繫實際,並親自上手實踐。為降低讀者編寫代碼的難度,本書所有案例的代碼都是可以獨立運行的,並且盡量減少了對依賴包的使用。
    本書可以作為理工科相關專業研究生的學位課教材,也可以作為人工智慧、機器學習相關專業高年級本科生的選修課教材,還可以作為相關領域學術研究人員、教師和工程技術人員的參考資料。

作者介紹
編者:龍強//章勝|責編:趙佳霓

目錄
第1章  強化學習的模型
  1.1  強化學習簡介
    1.1.1  初識強化學習
    1.1.2  強化學習的歷史
    1.1.3  強化學習與機器學習的關係
  1.2  強化學習的模型
    1.2.1  強化學習基本模型和要素
    1.2.2  強化學習的執行過程
    1.2.3  強化學習的數學模型——馬爾可夫決策過程
    1.2.4  環境模型案例
  1.3  Gym介紹
    1.3.1  Gym簡介
    1.3.2  Gym安裝
    1.3.3  Gym的環境描述和案例
    1.3.4  在Gym中添加自編環境
    1.3.5  直接使用自編環境
第2章  動態規劃法
  2.1  動態規劃法簡介
  2.2  值函數和貝爾曼方程
    2.2.1  累積折扣獎勵
    2.2.2  值函數
    2.2.3  貝爾曼方程
  2.3  策略評估
  2.4  策略改進
  2.5  最優值函數和最優策略
  2.6  策略迭代和值迭代
  2.7  動態規劃法求解強化學習案例
第3章  蒙特卡羅法
  3.1  蒙特卡羅法簡介
  3.2  蒙特卡羅策略評估
    3.2.1  蒙特卡羅策略評估
    3.2.2  增量式蒙特卡羅策略評估
    3.2.3  蒙特卡羅策略評估案例
    3.2.4  蒙特卡羅和動態規劃策略評估的對比
  3.3  蒙特卡羅強化學習
    3.3.1  蒙特卡羅策略改進
    3.3.2  起始探索蒙特卡羅強化學習
    3.3.3  貪婪策略蒙特卡羅強化學習
    3.3.4  蒙特卡羅強化學習案例
  3.4  異策略蒙特卡羅強化學習
    3.4.1  重要性採樣
    3.4.2  異策略蒙特卡羅策略評估
    3.4.3  增量式異策略蒙特卡羅策略評估
    3.4.4  異策略蒙特卡羅強化學習
    3.4.5  異策略蒙特卡羅強化學習案例
  3.5  .蒙特卡羅樹搜索
    3.5.1  MCTS的基本思想
    3.5.2  MCTS的演算法流程
    3.5.3  基於MCTS的強化學習演算法
    3.5.4  案例和代碼

第4章  時序差分法
  4.1  時序差分策略評估
    4.1.1  時序差分策略評估原理
    4.1.2  時序差分策略評估演算法
    4.1.3  時序差分策略評估案例
    4.1.4  時序差分策略評估的優勢
  4.2  同策略時序差分強化學習
    4.2.1  Sarsa演算法
    4.2.2  Sarsa演算法案例
  4.3  異策略時序差分強化學習
    4.3.1  Q-learning演算法
    4.3.2  期望Sarsa演算法
    4.3.3  Double Q-learning演算法
    4.3.4  Q-learning演算法案例
  4.4  n步時序差分強化學習
    4.4.1  n步時序差分策略評估
    4.4.2  n-step Sarsa演算法
  4.5  TD(a)演算法
    4.5.1  前向TD(A)演算法
    4.5.2  後向TD(A)演算法
    4.5.3  Sarsa(A)演算法
第5章  深度學習與PyTorch
  5.1  從感知機到神經網路
    5.1.1  感知機模型
    5.1.2  感知機和布爾運算
  5.2  深度神經網路
    5.2.1  網路拓撲
    5.2.2  前向傳播
    5.2.3  訓練模型
    5.2.4  誤差反向傳播
  5.3  激活函數、損失函數和數據預處理
    5.3.1  激活函數
    5.3.2  損失函數
    5.3.3  數據預處理
  5.4  PyTorch深度學習軟體包
    5.4.1  數據類型及類型的轉換
    5.4.2  張量的維度和重組操作
    5.4.3  組裝神經網路的模塊
    5.4.4  自動梯度計算
    5.4.5  訓練數據自由讀取
    5.4.6  模型的搭建、訓練和測試
    5.4.7  模型的保存和重載
  5.5  深度學習案例
    5.5.1  函數近似
    5.5.2  數字圖片識別
第6章  值函數近似演算法
  6.1  線性值函數近似演算法
    6.1.1  線性值函數近似時序差分演算法
    6.1.2  特徵函數
    6.1.3  線性值函數近似演算法案例

  6.2  神經網路值函數近似法
    6.2.1  DQN演算法原理
    6.2.2  DQN演算法
    6.2.3  DQN演算法案例
  6.3  Double DQN(DDQN)演算法
  6.4  Prioritized Replay DQN演算法
    6.4.1  樣本優先順序
    6.4.2  隨機優先順序採樣
    6.4.3  樣本重要性權重參數
    6.4.4  Prioritized Replay DQN演算法流程
    6.4.5  Prioritized Replay DQN演算法案例
  6.5  Dueling DQN演算法
    6.5.1  Dueling DQN演算法原理
    6.5.2  Dueling DQN演算法案例
第7章  策略梯度演算法
  7.1  策略梯度演算法的基本原理
    7.1.1  初識策略梯度演算法
    7.1.2  策略函數
    7.1.3  策略目標函數
    7.1.4  策略梯度演算法的框架
    7.1.5  策略梯度演算法的評價
  7.2  策略梯度定理
    7.2.1  離散型策略梯度定理
    7.2.2  連續型策略梯度定理
    7.2.3  近似策略梯度和評價函數
  7.3  蒙特卡羅策略梯度演算法(REINFORCE)
    7.3.1  REINFORCE的基本原理
    7.3.2  REINFORCE的演算法流程
    7.3.3  REINFORCE隨機梯度的嚴格推導
    7.3.4  帶基線函數的REINFORCE
    7.3.5  REINFORCE實際案例及代碼實現
  7.4  演員-評論家策略梯度演算法
    7.4.1  演算法原理
    7.4.2  演算法流程
    7.4.3  演算法代碼及案例
第8章  策略梯度法進階
  8.1  非同步優勢演員:評論家演算法
    8.1.1  非同步強化學習
    8.1.2  A3C演算法
    8.1.3  A2C演算法
    8.1.4  案例和程序
  8.2  深度確定性策略梯度演算法
    8.2.1  DDPG的基本思想
    8.2.2  DDPG的演算法原理
    8.2.3  DDPG的演算法結構和流程
    8.2.4  案例和程序
  8.3  近端策略優化演算法
    8.3.1  PPO的演算法原理
    8.3.2  PPO的演算法結構和流程
    8.3.3  案例和程序

  8.4  柔性演員-評論家演算法
    8.4.1  最大熵原理
    8.4.2  柔性Q學習
    8.4.3  SAC演算法原理
    8.4.4  SAC演算法結構和流程
    8.4.5  案例和程序
第9章  深度強化學習案例:AlphaGo系列演算法
  9.1  AlphaGo演算法介紹
    9.1.1  AlphaGo中的深度神經網路
    9.1.2  AlphaGo中深度神經網路的訓練
    9.1.3  AlphaGo的MCTS
    9.1.4  總結
  9.2  AlphaGo Zero演算法介紹
    9.2.1  AlphaGo Zero的策略-價值網路
    9.2.2  AlphaGo Zero的MCTS
    9.2.3  AlphaGo Zero的演算法流程
  9.3  AlphaZero演算法介紹
    9.3.1  從圍棋到其他棋類需要解決的問題
    9.3.2  AlphaZero相對於AlphaGo Zero的改進與調整
    9.3.3  AlphaZero的演算法流程
  9.4  MuZero演算法介紹
    9.4.1  MuZero中的深度神經網路
    9.4.2  MuZero中的MCTS
    9.4.3  MuZero的演算法流程
  9.5  AlphaGo系列演算法的應用與啟示
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032