強化學習(原理與Python實現)/智能系統與技術叢書

作者：肖智清
出版社：機械工業
ISBN：9787111631774

出版日期：2019/08/01
裝幀：平裝
頁數：239

人民幣：RMB 89 元售價：元

內容大鋼

    本書理論完備，涵蓋主流經典強化學習演算法和深度強化學習演算法；實戰性強，基於Python、Gym、TensorFlow 2、AlphaZero等構建，配套代碼與綜合案例。全書共12章，主要內容如下。
    第1章：介紹強化學習的基礎知識與強化學習環境庫Gym的使用，並給出完整的編程實例。
    第2?9章：介紹強化學習的理論知識。以Markov決策過程為基礎模型，覆蓋了所有主流強化學習理論和演算法，包括資格跡等經典演算法和深度確定性梯度策略等深度強化學習演算法。所有章節都提供了與演算法配套的Python程序，使讀者完全掌握強化學習演算法的原理與應用。
    第10?12章：介紹了多個熱門綜合案例，包括電動遊戲、棋盤遊戲和自動駕駛。演算法部分涵蓋了在《自然》《科學》等權威期刊上發表的多個深度強化學習明星演算法。

作者介紹

肖智清
肖智清，深度學習一線研發人員，現就職於世界排名第一的投資銀行，清華大學博士。擅長概率統計、隨機過程、時間序列和機器學習。近5年發表SCI/EI論文十余篇，是多個頂級期刊和會議審稿人。在國內外多項程序設計和數據科學競賽獲得冠軍。

前言
第1章  初識強化學習
  1.1  強化學習及其關鍵元素
  1.2  強化學習的應用
  1.3  智能體/環境介面
  1.4  強化學習的分類
    1.4.1  按任務分類
    1.4.2  按演算法分類
  1.5  如何學習強化學習
    1.5.1  學習路線
    1.5.2  學習資源
  1.6  案例：基於Gym庫的智能體/環境交互
    1.6.1  安裝Gym庫
    1.6.2  使用Gym庫
    1.6.3  小車上山
  1.7  本章小結
第2章  Markov決策過程
  2.1  Markov決策過程模型
    2.1.1  離散時間Markov決策過程
    2.1.2  環境與動力
    2.1.3  智能體與策略
    2.1.4  獎勵、回報與價值函數
  2.2  Bellman期望方程
  2.3  最優策略及其性質
    2.3.1  最優策略與最優價值函數
    2.3.2  Bellman最優方程
    2.3.3  用Bellman最優方程求解最優策略
  2.4  案例：懸崖尋路
    2.4.1  實驗環境使用
    2.4.2  求解Bellman期望方程
    2.4.3  求解Bellman最優方程
  2.5  本章小結
第3章  有模型數值迭代
  3.1  度量空間與壓縮映射
    3.1.1  度量空間及其完備性
    3.1.2  壓縮映射與Bellman運算元
    3.1.3  Banach不動點定理
  3.2  有模型策略迭代
    3.2.1  策略評估
    3.2.2  策略改進
    3.2.3  策略迭代
  3.3  有模型價值迭代
  3.4  動態規劃
    3.4.1  從動態規劃看迭代演算法
    3.4.2  非同步動態規劃
  3.5  案例：冰面滑行
    3.5.1  實驗環境使用
    3.5.2  有模型策略迭代求解
    3.5.3  有模型價值迭代求解
  3.6  本章小結

第4章  回合更新價值迭代
  4.1  同策回合更新
    4.1.1  同策回合更新策略評估
    4.1.2  帶起始探索的同策回合更新
    4.1.3  基於柔性策略的同策回合更新
  4.2  異策回合更新
    4.2.1  重要性採樣
    4.2.2  異策回合更新策略評估
    4.2.3  異策回合更新最優策略求解
  4.3  案例：21點遊戲
    4.3.1  實驗環境使用
    4.3.2  同策策略評估
    4.3.3  同策最優策略求解
    4.3.4  異策策略評估
    4.3.5  異策最優策略求解
  4.4  本章小結
第5章  時序差分價值迭代
  5.1  同策時序差分更新
    5.1.1  時序差分更新策略評估
    5.1.2  SARSA演算法
    5.1.3  期望SARSA演算法
  5.2  異策時序差分更新
    5.2.1  基於重要性採樣的異策演算法
    5.2.2  Q學習
    5.2.3  雙重Q學習
  5.3  資格跡
    5.3.1  λ回報
    5.3.2  TD(λ)
  5.4  案例：計程車調度
    5.4.1  實驗環境使用
    5.4.2  同策時序差分學習調度
    5.4.3  異策時序差分學習調度
    5.4.4  資格跡學習調度
  5.5  本章小結
第6章  函數近似方法
  6.1  函數近似原理
    6.1.1  隨機梯度下降
    6.1.2  半梯度下降
    6.1.3  帶資格跡的半梯度下降
  6.2  線性近似
    6.2.1  精確查找表與線性近似的關係
    6.2.2  線性最小二乘策略評估
    6.2.3  線性最小二乘最優策略求解
  6.3  函數近似的收斂性
  6.4  深度Q學習
    6.4.1  經驗回放
    6.4.2  帶目標網路的深度Q學習
    6.4.3  雙重深度Q網路
    6.4.4  對偶深度Q網路
  6.5  案例：小車上山

    6.5.1  實驗環境使用
    6.5.2  用線性近似求解最優策略
    6.5.3  用深度Q學習求解最優策略
  6.6  本章小結
第7章  回合更新策略梯度方法
  7.1  策略梯度演算法的原理
    7.1.1  函數近似與動作偏好
    7.1.2  策略梯度定理
  7.2  同策回合更新策略梯度演算法
    7.2.1  簡單的策略梯度演算法
    7.2.2  帶基線的簡單策略梯度演算法
  7.3  異策回合更新策略梯度演算法
  7.4  策略梯度更新和極大似然估計的關係
  7.5  案例：車桿平衡
    7.5.1  同策策略梯度演算法求解最優策略
    7.5.2  異策策略梯度演算法求解最優策略
  7.6  本章小結
第8章  執行者/評論者方法
  8.1  同策執行者/評論者演算法
    8.1.1  動作價值執行者/評論者演算法
    8.1.2  優勢執行者/評論者演算法
    8.1.3  帶資格跡的執行者/評論者演算法
  8.2  基於代理優勢的同策演算法
    8.2.1  代理優勢
    8.2.2  鄰近策略優化
  8.3  信任域演算法
    8.3.1  KL散度
    8.3.2  信任域
    8.3.3  自然策略梯度演算法
    8.3.4  信任域策略優化
    8.3.5  Kronecker因子信任域執行者/評論者演算法
  8.4  重要性採樣異策執行者/評論者演算法
    8.4.1  基本的異策演算法
    8.4.2  帶經驗回放的異策演算法
  8.5  柔性執行者/評論者演算法
    8.5.1  熵
    8.5.2  獎勵工程和帶熵的獎勵
    8.5.3  柔性執行者/評論者的網路設計
  8.6  案例：雙節倒立擺
    8.6.1  同策執行者/評論者演算法求解最優策略
    8.6.2  異策執行者/評論者演算法求解最優策略
  8.7  本章小結
第9章  連續動作空間的確定性策略
  9.1  同策確定性演算法
    9.1.1  策略梯度定理的確定性版本
    9.1.2  基本的同策確定性執行者/評論者演算法
  9.2  異策確定性演算法
    9.2.1  基本的異策確定性執行者/評論者演算法
    9.2.2  深度確定性策略梯度演算法
    9.2.3  雙重延遲深度確定性策略梯度演算法

  9.3  案例：倒立擺的控制
    9.3.1  用深度確定性策略梯度演算法求解
    9.3.2  用雙重延遲深度確定性演算法求解
  9.4  本章小結
第10章  綜合案例：電動遊戲
  10.1  Atari遊戲環境
    10.1.1  Gym庫的完整安裝
    10.1.2  遊戲環境使用
  10.2  基於深度Q學習的遊戲AI
    10.2.1  演算法設計
    10.2.2  智能體的實現
    10.2.3  智能體的訓練和測試
  10.3  本章小結
第11章  綜合案例：棋盤遊戲
  11.1  雙人確定性棋盤遊戲
    11.1.1  五子棋和井字棋
    11.1.2  黑白棋
    11.1.3  圍棋
  11.2  AlphaZero演算法
    11.2.1  回合更新樹搜索
    11.2.2  深度殘差網路
    11.2.3  自我對弈
    11.2.4  演算法流程
  11.3  棋盤遊戲環境boardgame
    11.3.1  為Gym庫擴展自定義環境
    11.3.2  boardgame2設計
    11.3.3  Gym環境介面的實現

同類熱銷排行榜

最近瀏覽的商品

強化學習(原理與Python實現)/智能系統與技術叢書