幫助中心 | 我的帳號 | 關於我們

強化學習(原理與Python實戰)/智能系統與技術叢書

  • 作者:肖智清|責編:楊福川//李樂
  • 出版社:機械工業
  • ISBN:9787111728917
  • 出版日期:2023/07/01
  • 裝幀:平裝
  • 頁數:490
人民幣:RMB 129 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書從原理和實戰兩個方面介紹了強化學習。原理方面,深入介紹了主流強化學習理論和演算法,覆蓋資格跡等經典演算法和MuZero等深度強化學習演算法;實戰方面,每章都配套了編程案例,以方便讀者學習。
    全書從邏輯上分為三部分。
    第1章:從零開始介紹強化學習的背景知識,介紹環境庫Gym的使用。
    第2?15章:基於折扣獎勵離散時間Markov決策過程模型,介紹強化學習的主幹理論和常見演算法。採用數學語言推導強化學習的基礎理論,進而在理論的基礎上講解演算法,併為演算法提供配套代碼實現。基礎理論的講解突出主幹部分,演算法講解全面覆蓋主流的強化學習演算法,包括經典的非深度強化學習演算法和近年流行的強化學習演算法。Python實現和演算法講解一一對應,還給出了深度強化學習演算法的TensorFlow和PyTorch對照實現。
    第16章:介紹其他強化學習模型,包括平均獎勵模型、連續時間模型、非齊次模型、半Markov模型、部分可觀測模型等,以便更好地了解強化學習研究的全貌。

作者介紹
肖智清|責編:楊福川//李樂
    肖智清,深度學習一線研發人員,現就職於世界排名第一的投資銀行,清華大學博士。擅長概率統計、隨機過程、時間序列和機器學習。近5年發表SCI/EI論文十余篇,是多個頂級期刊和會議審稿人。在國內外多項程序設計和數據科學競賽獲得冠軍。

目錄
數學符號表
前言
第1章  初識強化學習
  1.1  強化學習及其關鍵元素
  1.2  強化學習的應用
  1.3  智能體/環境介面
  1.4  強化學習的分類
    1.4.1  按任務分類
    1.4.2  按演算法分類
  1.5  強化學習演算法的性能指標
  1.6  案例:基於Gym庫的智能體/環境介面
    1.6.1  安裝Gym庫
    1.6.2  使用Gym庫
    1.6.3  小車上山
  1.7  本章小結
  1.8  練習與模擬面試
第2章  Markov決策過程
  2.1  Markov決策過程模型
    2.1.1  離散時間Markov決策過程
    2.1.2  環境與動力
    2.1.3  策略
    2.1.4  帶折扣的回報
  2.2  價值
    2.2.1  價值的定義
    2.2.2  價值的性質
    2.2.3  策略的偏序和改進
  2.3  帶折扣的分佈
    2.3.1  帶折扣的分佈的定義
    2.3.2  帶折扣的分佈的性質
    2.3.3  帶折扣的分佈和策略的等價性
    2.3.4  帶折扣的分佈下的期望
  2.4  最優策略與最優價值
    2.4.1  從最優策略到最優價值
    2.4.2  最優策略的存在性
    2.4.3  最優價值的性質與Bellman最優方程
    2.4.4  用線性規劃法求解最優價值
    2.4.5  用最優價值求解最優策略
  2.5  案例:懸崖尋路
    2.5.1  使用環境
    2.5.2  求解策略價值
……
第3章  有模型數值迭代
第4章  回合更新價值迭代
第5章  時序差分價值迭代
第6章  函數近似方法
第7章  回合更新策略梯度方法
第8章  執行者/評論者
第9章  連續動作空間的確定性策略
第10章  最大熵強化學習
第11章  基於策略的無梯度演算法

第12章  值分佈強化學習
第13章  最小化遺憾
第14章  樹搜索
第15章  模仿學習和人類反饋強化學習
第16章  更多智能體/環境介面模型

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032