幫助中心 | 我的帳號 | 關於我們

強化學習(第2版)/智源人工智慧叢書

  • 作者:(加)理查德·薩頓//(美)安德魯·巴圖|譯者:俞凱
  • 出版社:電子工業
  • ISBN:9787121295164
  • 出版日期:2019/09/01
  • 裝幀:平裝
  • 頁數:519
人民幣:RMB 168 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書作為強化學習思想的深度解剖之作,被業內公認為是一本強化學習基礎理論的經典著作。它從強化學習的基本思想出發,深入淺出又嚴謹細緻地介紹了馬爾可夫決策過程、蒙特卡洛方法、時序差分方法、同軌離軌策略等強化學習的基本概念和方法,並以大量的實例幫助讀者理解強化學習的問題建模過程以及核心的演算法細節。
    本書適合所有對強化學習感興趣的讀者閱讀、收藏。

作者介紹
(加)理查德·薩頓//(美)安德魯·巴圖|譯者:俞凱

目錄
  第1章  導論
    1.1  強化學習
    1.2  示例
    1.3  強化學習要素
    1.4  局限性與適用範圍
    1.5  擴展實例:井字棋
    1.6  本章小結
    1.7  強化學習的早期歷史
第Ⅰ部分  表格型求解方法
  第2章  多臂賭博機
    2.1  一個k臂賭博機問題
    2.2  動作-價值方法
    2.3  10臂測試平台
    2.4  增量式實現
    2.5  跟蹤一個非平穩問題
    2.6  樂觀初始值
    2.7  基於置信度上界的動作選擇
    2.8  梯度賭博機演算法
    2.9  關聯搜索(上下文相關的賭博機)
    2.10  本章小結
  第3章  有限馬爾可夫決策過程
    3.1  「智能體-環境」交互介面
    3.2  目標和收益
    3.3  回報和分幕
    3.4  分幕式和持續性任務的統一表示法
    3.5  策略和價值函數
    3.6  最優策略和最優價值函數
    3.7  最優性和近似演算法
    3.8  本章小結
  第4章  動態規劃
    4.1  策略評估(預測)
    4.2  策略改進
    4.3  策略迭代
    4.4  價值迭代
    4.5  非同步動態規劃
    4.6  廣義策略迭代
    4.7  動態規劃的效率
    4.8  本章小結
  第5章  蒙特卡洛方法
    5.1  蒙特卡洛預測
    5.2  動作價值的蒙特卡洛估計
    5.3  蒙特卡洛控制
    5.4  沒有試探性出發假設的蒙特卡洛控制
    5.5  基於重要度採樣的離軌策略
    5.6  增量式實現
    5.7  離軌策略蒙特卡洛控制
    5.8  *折扣敏感的重要度採樣
    5.9  *每次決策型重要度採樣
    5.10  本章小結
  ……

第Ⅱ部分  表格型近似求解方法
第Ⅲ部分  表格型深入研究
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032