同類熱銷排行榜

強化學習

作者：編者:余欣航|責編:章海濤
出版社：電子工業
ISBN：9787121476617

出版日期：2024/04/01
裝幀：平裝
頁數：267

人民幣：RMB 69.8 元售價：元

內容大鋼

本書詳細介紹了強化學習的理論推導、演算法細節。全書共12章，包括強化學習概述、馬爾可夫決策過程。退化的強化學習問題、環境已知的強化學習問題、基於價值的強化學習演算法、基於策略的強化學習演算法、AC型演算法、基於模型的強化學習演算法等相關知識。本書系統性強、概念清晰，內容簡明通俗。除了側重於理論推導，本書還提供了許多便於讀者理解的例子，以及大量被實踐證明有效的演算法技巧，旨在幫助讀者進一步了解強化學習領域的相關知識，提升其現實中的工程能力。
本書可作為高等院校數學、電腦、人工智慧等相關專業的強化學習教材，但需要有機器學習、深度學習等前置課程作為基礎。

作者介紹

編者:余欣航|責編:章海濤

第1章  緒論
  1.1  強化學習是什麼
  1.2  強化學習的基本思想
    1.2.1  從環境中產生數據
    1.2.2  求解優策略
  1.3  強化學習為什麼重要
  1.4  本書內容介紹
  參考文獻
第2章  馬爾可夫決策過程
  2.1  馬爾可夫過程
  2.2  馬爾可夫決策過程的定義
  2.3  馬爾可夫過程與馬爾可夫決策過程的對比
  2.4  馬爾可夫決策過程的分類
    2.4.1  馬爾可夫決策過程是否發生退化
    2.4.2  環境是否已知
    2.4.3  環境的確定性與隨機性
    2.4.4  馬爾可夫決策過程的時齊性
    2.4.5  狀態與動作的連續性
    *2.4.6  時間的連續性
    2.4.7  小結
  2.5  馬爾可夫決策過程的獎勵函數
    思考題
  參考文獻
第3章  退化的強化學習問題
  3.1  盲盒售貨機問題
  3.2  探索-利用困境
  3.3  各種不同的探索策略
    3.3.1  貪心策略
    3.3.2  玻爾茲曼探索策略
    3.3.3  上置信界策略
  3.4  總結
    思考題
  參考文獻
第4章  優控制
  4.1  基於價值的思想
    4.1.1  三連棋遊戲策略
    4.1.2  價值的定義
    4.1.3  基於價值和基於策略
    4.1.4  小結
    思考題
  4.2  動態規劃
    4.2.1  策略迭代法
    4.2.2  雅可比迭代法
    4.2.3  值迭代法
    4.2.4  軟提升
    4.2.5  小結
    思考題
  4.3  LQR控制
    4.3.1  基本LQR控制問題
    4.3.2  LQR控制器

    *4.3.3  環境隨機的LQR控制問題
    4.3.4  iLQR控制器
    4.3.5  實時規劃
    4.3.6  小結
    思考題
  4.4  總結
  參考文獻
第5章  基於價值的強化學習
  5.1  Q-Learning
    5.1.1  Q表格
    5.1.2  產生數據集的方式：探索與利用
    5.1.3  探索策略
    5.1.4  使用訓練數據的方法：經驗回放
    思考題
  5.2  Sarsa
    5.2.1  基本Sarsa演算法
    5.2.2  同策略與異策略
    5.2.3  n步Sarsa
    5.2.4  -return演算法
    *5.2.5  n步Q-Learning
    思考題
  5.3  DQN及其變體
    5.3.1  固定Q目標結構
    5.3.2  雙重DQN
    5.3.3  優先回放機制
    5.3.4  優勢函數
    5.3.5  DuelingDQN
    *5.3.6  Rainbow
    思考題
  *5.4  NAF
    *5.4.1  標準化優勢函數
    *5.4.2  NAF的訓練
  5.5  總結：基於價值的強化學習演算法
  參考文獻
第6章  策略函數與策略梯度
  6.1  策略函數與期望回報
  6.2  無梯度方法
    6.2.1  隨機搜索
    6.2.2  交叉熵演算法
    6.2.3  進化演算法
  6.3  策略梯度
    6.3.1  策略網路的構造
    6.3.2  策略梯度的計算
    6.3.3  基本策略梯度演算法
    *6.3.4  動作連續的策略梯度
  6.4  策略梯度的訓練技巧
    6.4.1  基準法
    6.4.2  經驗回放
    6.4.3  探索策略
  6.5  總結

    思考題
  參考文獻
第7章  AC演算法
  7.1  基本AC演算法
    7.1.1  AC演算法的出發點
    7.1.2  化簡策略梯度公式
    7.1.3  AC演算法的基本思想
    7.1.4  單步更新與回合更新
    思考題
  7.2  AC演算法的訓練技巧
    7.2.1  廣義優勢函數估計
    7.2.2  控制訓練兩個網路的步調
    7.2.3  ACER
    思考題
  7.3  A3C與A2C
    7.3.1  並行訓練
    7.3.2  A3C
    7.3.3  A2C
    思考題
  參考文獻
第8章  AC型演算法
  8.1  自然梯度法
    8.1.1  牛頓法
    8.1.2  信賴域方法
    8.1.3  近似點法
    *8.1.4  自然策略梯度
  8.2  TRPO與PPO演算法
    8.2.1  策略提升
    8.2.2  TRPO演算法
    8.2.3  PPO演算法
    8.2.4  TRPO與PPO演算法的訓練技巧
    8.2.5  小結
    思考題
  8.3  DDPG
    8.3.1  動作連續問題的網路結構
    8.3.2  從基於價值的角度理解DDPG演算法
    8.3.3  DDPG演算法及訓練技巧
    8.3.4  確定策略下的策略梯度
    8.3.5  從基於策略的角度理解DDPG演算法
    思考題
  *8.4  SoftAC
  8.5  總結：基於策略的演算法
    8.5.1  基於價值和基於策略
    8.5.2  偏差-方差取捨
    8.5.3  策略的空間
    8.5.4  訓練數據的產生與使用
    8.5.5  小結
  參考文獻
第9章  基於模型的基本思想
  9.1  MBRL概述

  9.2  模型是什麼
    9.2.1  各種模型及其基本用法
    9.2.2  更多的模型變體
    9.2.3  模型的一些特點
    *9.2.4  對模型的理解
    思考題
  9.3  如何使用黑盒模型
    9.3.1  用黑盒模型增廣數據
    9.3.2  權衡數據成本與準確性
    9.3.3  黑盒模型的其他用途
    9.3.4  小結
    思考題
  9.4  如何使用白盒模型
    9.4.1  用白盒模型輔助進行策略優化
    9.4.2  用白盒模型解優控制
    9.4.3  小結
    思考題
  參考文獻
第10章  基於模型的強化學習進階
  10.1  如何學習模型
    10.1.1  讓學習更符合目標
    10.1.2  讓學習本身成為目標
    10.1.3  以學習作為目標
    10.1.4  小結
    思考題
  10.2  世界模型
    10.2.1  觀察
    10.2.2  POMDP
    10.2.3  為世界建模
    10.2.4  Dreamer
    思考題
  10.3  實時規劃
    10.3.1  實時規劃的基本思想
    10.3.2  蒙特卡洛樹搜索
    10.3.3  模型預測控制
    思考題
  10.4  MBRL演算法思想總結
  參考文獻
第11章  連續時間的優控制
  11.1  時間連續的優控制問題
  11.2  H-J-B方程
    11.2.1  連續時間的貝爾曼方程
    *11.2.2  用H-J-B方程求解LQR控制問題
    11.2.3  總結：關於價值的方程
    思考題
  *11.3  變分原理
    11.3.1  從有窮維空間到無窮維空間
    11.3.2  變分問題
    *11.3.3  歐拉-拉格朗日方程
    *11.3.4  用變分法求解優控制問題

    11.3.5  總結：策略的優化
    思考題
  參考文獻
第12章  其他強化學習相關內容
  12.1  獎勵函數的改造與混合
  12.2  逆向強化學習
  12.3  層次強化學習
  12.4  離線強化學習
  參考文獻

Δ訂單支付
付款方式
運費計算方式

Δ關於我們
關於美商天龍
聯絡我們

首頁│ 新手上路│ 客服中心│ 關於我們│ 聯絡我們│ Top↑│
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話：02-2381-2033 02-2381-1863　時間：週一-週五 10:00-17:00
　服務信箱：bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證：浙B2-20060032

同類熱銷排行榜

最近瀏覽的商品

強化學習