幫助中心 | 我的帳號 | 關於我們

強化學習的數學原理

  • 作者:趙世鈺|責編:郭賽
  • 出版社:清華大學
  • ISBN:9787302685678
  • 出版日期:2025/04/01
  • 裝幀:平裝
  • 頁數:271
人民幣:RMB 108 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書將從強化學習最基本的概念開始介紹,將介紹基礎的分析工具包括貝爾曼公式和貝爾曼最優公式,之後會推廣到基於模型的和無模型的強化學習演算法,最後會推廣到基於函數逼近的強化學習方法。本書強調從數學的角度接引入概念、分析問題、分析演算法。並不強調演算法的編程實現,因為目前已經有很多這方面的書籍,本書將不再重複造輪子。
    本書面向對強化學習感興趣的本科生、研究生、研究人員和企業研究所從業者。
    它不需要讀者有任何關於強化學習的背景,因為它會從最基本的概念開始介紹。如果讀者已經有一些強化學習的背景,這本書也可以幫助他們更深入地理解一些問題或者帶來新的視角。
    本書要求讀者具備一定的概率論和線性代數知識。本書的附錄中包含了一些必需的數學基礎知識。

作者介紹
趙世鈺|責編:郭賽
    趙世鈺,西湖大學工學院AI分支特聘研究員,智能無人系統實驗室負責人,國家海外高層次人才引進計劃青年項目獲得者;本碩畢業於北京航空航天大學,博士畢業於新加坡國立大學,曾任英國謝菲爾德大學自動控制與系統工程系Lecturer;致力於研發有趣、有用、有挑戰性的下一代機器人系統,重點關注多機器人系統中的控制、決策與感知等問題。

目錄
第1章  基本概念
  1.1  網格世界例子
  1.2  狀態和動作
  1.3  狀態轉移
  1.4  策略
  1.5  獎勵
  1.6  軌跡、回報、回合
  1.7  馬爾可夫決策過程
  1.8  總結
  1.9  問答
第2章  狀態值與貝爾曼方程
  2.1  啟發示例1:為什麼回報很重要?
  2.2  啟發示例2:如何計算回報?
  2.3  狀態值
  2.4  貝爾曼方程
  2.5  示例
  2.6  矩陣向量形式
  2.7  求解狀態值
    2.7.1  方法1:解析解
    2.7.2  方法2:數值解
    2.7.3  示例
  2.8  動作值
    2.8.1  示例
    2.8.2  基於動作值的貝爾曼方程
  2.9  總結
  2.10  問答
第3章  最優狀態值與貝爾曼最優方程
  3.1  啟發示例:如何改進策略?
  3.2  最優狀態值和最優策略
  3.3  貝爾曼最優方程
    3.3.1  方程右側的優化問題
    3.3.2  矩陣-向量形式
    3.3.3  壓縮映射定理
    3.3.4  方程右側函數的壓縮性質
  3.4  從貝爾曼最優方程得到最優策略
  3.5  影響最優策略的因素
  3.6  總結
  3.7  問答
第4章  值迭代與策略迭代
  4.1  值迭代演算法
    4.1.1  展開形式和實現細節
    4.1.2  示例
  4.2  策略迭代演算法
    4.2.1  演算法概述
    4.2.2  演算法的展開形式
    4.2.3  示例
  4.3  截斷策略迭代演算法
    4.3.1  對比值迭代與策略迭代
    4.3.2  截斷策略迭代演算法
  4.4  總結

  4.5  問答
第5章  蒙特卡羅方法
  5.1  啟發示例:期望值估計
  5.2  MC Basic:最簡單的基於蒙特卡羅的演算法
    5.2.1  將策略迭代演算法轉換為無需模型
    5.2.2  MC Basic演算法
    5.2.3  示例
  5.3  MC Exploring Starts演算法
    5.3.1  更高效地利用樣本
    5.3.2  更高效地更新策略
    5.3.3  演算法描述
  5.4  MC ε-Greedy演算法
    5.4.1  ε-Greedy策略
    5.4.2  演算法描述
    5.4.3  示例
  5.5  探索與利用:以ε-Greedy策略為例
  5.6  總結
  5.7  問答
第6章  隨機近似演算法
  6.1  啟發示例:期望值估計
  6.2  羅賓斯-門羅演算法
    6.2.1  收斂性質
    6.2.2  在期望值估計問題中的應用
  6.3  Dvoretzky定理
    6.3.1  Dvoretzky定理的證明
    6.3.2  應用於分析期望值估計演算法
    6.3.3  應用於證明羅賓斯-門羅定理
    6.3.4  Dvoretzky定理的推廣
  6.4  隨機梯度下降
    6.4.1  應用於期望值估計
    6.4.2  隨機梯度下降的收斂模式
    6.4.3  隨機梯度下降的另一種描述
    6.4.4  小批量梯度下降
    6.4.5  隨機梯度下降的收斂性
  6.5  總結
  6.6  問答
第7章  時序差分方法
  7.1  狀態值估計:最基礎的時序差分演算法
    7.1.1  演算法描述
    7.1.2  性質分析
    7.1.3  收斂性證明
  7.2  動作值估計:Sarsa
    7.2.1  演算法描述
    7.2.2  學習最優策略
  7.3  動作值估計:n-Step Sarsa
  7.4  最優動作值估計:Q-learning
    7.4.1  演算法描述
    7.4.2  Off-policy和On-policy
    7.4.3  演算法實現
    7.4.4  示例

  7.5  時序差分演算法的統一框架
  7.6  總結
  7.7  問答
第8章  值函數方法
  8.1  價值表示:從表格到函數
  8.2  基於值函數的時序差分演算法:狀態值估計
    8.2.1  目標函數
    8.2.2  優化演算法
    8.2.3  選擇值函數
    8.2.4  示例
    8.2.5  理論分析
  8.3  基於值函數的時序差分:動作值估計
    8.3.1  基於值函數的Sarsa
    8.3.2  基於值函數的Q-learning
  8.4  深度Q-learning
    8.4.1  演算法描述
    8.4.2  示例
  8.5  總結
  8.6  問答
第9章  策略梯度方法
  9.1  策略表示:從表格到函數
  9.2  目標函數:定義最優策略
  9.3  目標函數的梯度
    9.3.1  推導策略梯度:有折扣的情況
    9.3.2  推導策略梯度:無折扣的情況
  9.4  蒙特卡羅策略梯度(REINFORCE)
  9.5  總結
  9.6  問答
第10章  演員-評論家方法
  10.1  最簡單的演員-評論家演算法:QAC
  10.2  優勢演員-評論家
    10.2.1  基準不變性
    10.2.2  演算法描述
  10.3  異策略演員-評論家
    10.3.1  重要性採樣
    10.3.2  Off-policy策略梯度定理
    10.3.3  演算法描述
  10.4  確定性演員-評論家
    10.4.1  確定性策略梯度定理
    10.4.2  演算法描述
  10.5  總結
  10.6  問答
附錄A  概率論基礎
附錄B  測度概率論
附錄C  序列的收斂性
  C.1  確定性序列的收斂性
  C.2  隨機序列的收斂性
附錄D  梯度下降方法
符號
索引

參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032