幫助中心 | 我的帳號 | 關於我們

EASY RL(強化學習教程)

  • 作者:編者:王琦//楊毅遠//江季|責編:郭媛
  • 出版社:人民郵電
  • ISBN:9787115584700
  • 出版日期:2022/03/01
  • 裝幀:平裝
  • 頁數:245
人民幣:RMB 99.9 元      售價:
放入購物車
加入收藏夾

內容大鋼
    強化學習作為機器學習及人工智慧領域的一種重要方法,在遊戲、自動駕駛、機器人路線規劃等領域得到了廣泛的應用。
    本書結合了李宏毅老師的「深度強化學習」、周博磊老師的「強化學習綱要」、李科澆老師的「世界冠軍帶你從零實踐強化學習」公開課的精華內容,在理論嚴謹的基礎上深入淺出地介紹馬爾可夫決策過程、蒙特卡洛方法、時序差分方法、Sarsa、Q學習等傳統強化學習演算法,以及策略梯度、近端策略優化、深度Q網路、深度確定性策略梯度等常見深度強化學習演算法的基本概念和方法,並以大量生動有趣的例子幫助讀者理解強化學習問題的建模過程以及核心演算法的細節。
    此外,本書還提供習題解答以及Python代碼實現,可以讓讀者進行端到端、從理論到輕鬆實踐的全生態學習,充分掌握強化學習演算法的原理並能進行實戰。
    本書適合對強化學習感興趣的讀者閱讀,也可以作為相關課程的配套教材。

作者介紹
編者:王琦//楊毅遠//江季|責編:郭媛

目錄
第1章  緒論
  1.1  強化學習概述
    1.1.1  強化學習與監督學習
    1.1.2  強化學習的例子
    1.1.3  強化學習的歷史
    1.1.4  強化學習的應用
  1.2  序列決策概述
    1.2.1  智能體和環境
    1.2.2  獎勵
    1.2.3  序列決策
  1.3  動作空間
  1.4  強化學習智能體的組成部分和類型
    1.4.1  策略
    1.4.2  價值函數
    1.4.3  模型
    1.4.4  強化學習智能體的類型
  1.5  學習與規劃
  1.6  探索和利用
  1.7  強化學習實驗
    1.7.1  Gym
    1.7.2  MountainCar-v0例子
  1.8  關鍵詞
  1.9  習題
  1.10  面試題
  參考文獻
第2章  馬爾可夫決策過程
  2.1  馬爾可夫過程
    2.1.1  馬爾可夫性質
    2.1.2  馬爾可夫過程/馬爾可夫鏈
    2.1.3  馬爾可夫過程的例子
  2.2  馬爾可夫獎勵過程
    2.2.1  回報與價值函數
    2.2.2  貝爾曼方程
    2.2.3  計算馬爾可夫獎勵過程價值的迭代演算法
    2.2.4  馬爾可夫獎勵過程的例子
  2.3  馬爾可夫決策過程
    2.3.1  馬爾可夫決策過程中的策略
    2.3.2  馬爾可夫決策過程和馬爾可夫過程/馬爾可夫獎勵過程的區別
    2.3.3  馬爾可夫決策過程中的價值函數
    2.3.4  貝爾曼期望方程
    2.3.5  備份圖
    2.3.6  策略評估
    2.3.7  預測與控制
    2.3.8  動態規劃
    2.3.9  使用動態規劃進行策略評估
    2.3.10  馬爾可夫決策過程式控制制
    2.3.11  策略迭代
    2.3.12  價值迭代
    2.3.13  策略迭代與價值迭代的區別
    2.3.14  馬爾可夫決策過程中的預測和控制總結

  2.4  關鍵詞
  2.5  習題
  2.6  面試題
  參考文獻
第3章  表格型方法
  3.1  馬爾可夫決策過程
    3.1.1  有模型
    3.1.2  免模型
    3.1.3  有模型與免模型的區別
  3.2  Q表格
  3.3  免模型預測
    3.3.1  蒙特卡洛方法
    3.3.2  時序差分方法
    3.3.3  動態規劃方法、蒙特卡洛方法以及時序差分方法的自舉和採樣
  3.4  免模型控制
    3.4.1  Sarsa:同策略時序差分控制
    3.4.2  Q學習:異策略時序差分控制
    3.4.3  同策略與異策略的區別
  3.5  使用Q學習解決懸崖尋路問題
    3.5.1  CliffWalking-v0環境簡介
    3.5.2  強化學習基本介面
    3.5.3  Q學習演算法
    3.5.4  結果分析
  3.6  關鍵詞
  3.7  習題
  3.8  面試題
  參考文獻
第4章  策略梯度
  4.1  策略梯度演算法
  4.2  策略梯度實現技巧
    4.2.1  技巧1:添加基線
    4.2.2  技巧2:分配合適的分數
  4.3  REINFORCE:蒙特卡洛策略梯度
  4.4  關鍵詞
  4.5  習題
  4.6  面試題
  參考文獻
第5章  近端策略優化
  5.1  從同策略到異策略
  5.2  近端策略優化
    5.2.1  近端策略優化懲罰
    5.2.2  近端策略優化裁剪
  5.3  關鍵詞
  5.4  習題
  5.5  面試題
  參考文獻
第6章  深度Q網路
  6.1  狀態價值函數
  6.2  動作價值函數
  6.3  目標網路

  6.4  探索
  6.5  經驗回放
  6.6  深度Q網路演算法總結
  6.7  關鍵詞
  6.8  習題
  6.9  面試題
  參考文獻
第7章  深度Q網路進階技巧
  7.1  雙深度Q網路
  7.2  競爭深度Q網路
  7.3  優先順序經驗回放
  7.4  在蒙特卡洛方法和時序差分方法中取得平衡
  7.5  雜訊網路
  7.6  分散式Q函數
  7.7  彩虹
  7.8  使用深度Q網路解決推車桿問題
    7.8.1  CartPole-v0簡介
    7.8.2  深度Q網路基本介面
    7.8.3  回放緩衝區
    7.8.4  Q網路
    7.8.5  深度Q網路演算法
    7.8.6  結果分析
  7.9  關鍵詞
  7.10  習題
  7.11  面試題
  參考文獻
第8章  針對連續動作的深度Q網路
  8.1  方案1:對動作進行採樣
  8.2  方案2:梯度上升
  8.3  方案3:設計網路架構
  8.4  方案4:不使用深度Q網路
  8.5  習題
第9章  演員-評論員演算法
  9.1  策略梯度回顧
  9.2  深度Q網路回顧
  9.3  演員-評論員演算法
  9.4  優勢演員-評論員演算法
  9.5  非同步優勢演員-評論員演算法
  9.6  路徑衍生策略梯度
  9.7  與生成對抗網路的聯繫
  9.8  關鍵詞
  9.9  習題
  9.10  面試題
第10章  深度確定性策略梯度
  10.1  離散動作與連續動作的區別
  10.2  深度確定性策略梯度
  10.3  雙延遲深度確定性策略梯度
  10.4  使用深度確定性策略梯度解決倒立擺問題
    10.4.1  Pendulum-v1簡介
    10.4.2  深度確定性策略梯度基本介面

    10.4.3  Ornstein-Uhlenbeck雜訊
    10.4.4  深度確定性策略梯度演算法
    10.4.5  結果分析
  10.5  關鍵詞
  10.6  習題
  10.7  面試題
  參考文獻
第11章  稀疏獎勵
  11.1  設計獎勵
  11.2  好奇心
  11.3  課程學習
  11.4  分層強化學習
  11.5  關鍵詞
  11.6  習題
  參考文獻
第12章  模仿學習
  12.1  行為克隆
  12.2  逆強化學習
  12.3  第三人稱視角模仿學習
  12.4  序列生成和聊天機器人
  12.5  關鍵詞
  12.6  習題
  參考文獻
第13章  AlphaStar論文解讀
  13.1  AlphaStar以及背景簡介
  13.2  AlphaStar的模型輸入和輸出是什麼呢?——環境設計
    13.2.1  狀態(網路的輸入)
    13.2.2  動作(網路的輸出)
  13.3  AlphaStar的計算模型是什麼呢?——網路結構
    13.3.1  輸入部分
    13.3.2  中間過程
    13.3.3  輸出部分
  13.4  龐大的AlphaStar如何訓練呢?——學習演算法
    13.4.1  監督學習
    13.4.2  強化學習
    13.4.3  模仿學習
    13.4.4  多智能體學習/自學習
  13.5  AlphaStar實驗結果如何呢?——實驗結果
    13.5.1  宏觀結果
    13.5.2  其他實驗(消融實驗)
  13.6  關於AlphaStar的總結
  參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032