幫助中心 | 我的帳號 | 關於我們

Python深度強化學習(使用PyTorch\TensorFlow和OpenAI Gym)/電子信息前沿技術叢書

  • 作者:(印)尼米什·桑吉|責編:文怡//李曄|譯者:羅俊海
  • 出版社:清華大學
  • ISBN:9787302607724
  • 出版日期:2022/10/01
  • 裝幀:平裝
  • 頁數:233
人民幣:RMB 69 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書重點突出深度強化學習理論的基本概念、前沿基礎理論和Python應用實現。首先介紹馬爾可夫決策、基於模型的演算法、無模型方法、動態規劃、蒙特卡洛和函數逼近等基礎知識;然後詳細闡述強化學習、深度強化學習、多智能體強化學習等演算法,及其Python應用實現。本書既闡述獎勵、價值函數、模型和策略等重要概念和基礎知識,又介紹深度強化學習理論的前沿研究和熱點方向。本書英文版出版之後,廣受好評,已成為深度強化學習領域暢銷教材,也可為人工智慧和機器學習等領域的科研工作者、技術工程師提供參考。

作者介紹
(印)尼米什·桑吉|責編:文怡//李曄|譯者:羅俊海
    Nimish Sanghi(尼米什·桑吉),一位充滿激情的技術領導者,專註于使用技術解決客戶問題,在軟體和咨詢領域擁有超過25年的工作經驗,擁有人工智慧和深度學習的多項證書,獲得印度理工學院電氣工程學士學位、印度管理學院工商管理碩士學位。曾在普華永道、IBM和Oracle等公司擔任領導職務,負責盈虧管理。2006年,在SOAIS公司開啟軟體咨詢創業之旅,為《財富》100強的眾多公司提供自動化和數字化轉型服務,實現從本地應用到雲計算的轉型。人工智慧和自動化驅動的初創公司領域的天使投資人,聯合創立面向印度市場的SaaS人力資源和薪資Paybooks平台,聯合創立提供人工智慧驅動的工作流ZipperAgent自動化平台和視頻營銷ZipperHQ自動化平台(總部位於波士頓的初創公司),現任這兩個平台的首席技術官和首席數據科學家。

目錄
第1章  強化學習導論
  1.1  強化學習概述
  1.2  機器學習分類
    1.2.1  監督學習
    1.2.2  無監督學習
    1.2.3  強化學習
    1.2.4  核心元素
  1.3  基於強化學習的深度學習
  1.4  實例和案例研究
    1.4.1  自動駕駛汽車
    1.4.2  機器人
    1.4.3  推薦系統
    1.4.4  金融和貿易
    1.4.5  醫療保健
    1.4.6  遊戲
  1.5  庫與環境設置
  1.6  總結
第2章  馬爾可夫決策
  2.1  強化學習的定義
  2.2  智能體和環境
  2.3  獎勵
  2.4  馬爾可夫過程
    2.4.1  馬爾可夫鏈
    2.4.2  馬爾可夫獎勵過程
    2.4.3  馬爾可夫決策過程
  2.5  策略和價值函數
  2.6  貝爾曼方程
    2.6.1  貝爾曼最優方程
    2.6.2  解決方法類型的思維導圖
  2.7  總結
第3章  基於模型的演算法
  3.1  OpenAI Gym
  3.2  動態規劃
  3.3  策略評估/預測
  3.4  策略改進和迭代
  3.5  價值迭代
  3.6  廣義策略迭代
  3.7  非同步回溯
  3.8  總結
第4章  無模型方法
  4.1  蒙特卡洛估計/預測
  4.2  蒙特卡洛控制
  4.3  離線策略MC控制
  4.4  TD學習方法
  4.5  TD控制
  4.6  在線策略SARSA
  4.7  Q-學習: 離線策略TD控制
  4.8  最大偏差和雙重學習
  4.9  期望SARSA控制
  4.10  回放池和離線策略學習

  4.11  連續狀態空間的Q-學習
  4.12  n-步回報
  4.13  資格跡和TD(λ)
  4.14  DP、MC和TD之間的關係
  4.15  總結
第5章  函數逼近
  5.1  概述
  5.2  逼近理論
    5.2.1  粗編碼
    5.2.2  瓦片編碼
    5.2.3  逼近中的挑戰
  5.3  增量預測: MC、TD和TD(λ)
  5.4  增量控制
    5.4.1  n-步半梯度SARSA控制
    5.4.2  半梯度SARSA(λ)控制
  5.5  函數逼近的收斂性
  5.6  梯度時序差分學習
  5.7  批處理方法
  5.8  線性最小二乘法
  5.9  深度學習庫
  5.10  總結
第6章  深度Q-學習
  6.1  DQN
  6.2  優先回放
  6.3  雙Q-學習
  6.4  競爭DQN
  6.5  雜訊網DQN
  6.6  C
  6.7  分位數回歸DQN
  6.8  事後經驗回放
  6.9  總結
第7章  策略梯度演算法
  7.1  引言
    7.1.1  基於策略的方法的利弊
    7.1.2  策略表徵
  7.2  策略梯度推導
    7.2.1  目標函數
    7.2.2  導數更新規則
    7.2.3  更新規則的運算原理
  7.3  強化演算法
    7.3.1  帶獎勵因子的方差減少
    7.3.2  進一步減少基線差異
  7.4  演員-評論家方法
    7.4.1  定義優勢
    7.4.2  優勢演員-評論家
    7.4.3  A2C演算法的實現
    7.4.4  非同步優勢演員-評論家
  7.5  信賴域策略優化演算法
  7.6  近似策略優化演算法
  7.7  總結

第8章  結合策略梯度和Q-學習
  8.1  策略梯度與Q-學習的權衡
  8.2  結合策略梯度與Q-學習的一般框架
  8.3  深度確定性策略梯度
    8.3.1  Q-學習在DDPG中的應用(評論家)
    8.3.2  DDPG中的策略學習(演員)
    8.3.3  偽代碼和實現
    8.3.4  代碼實現
  8.4  雙延遲DDPG
    8.4.1  目標-策略平滑
    8.4.2  Q-損失(評論家)
    8.4.3  策略損失(演員)
    8.4.4  延遲更新
    8.4.5  偽代碼和實現
    8.4.6  代碼實現
  8.5  重參數化技巧
    8.5.1  分數/強化方法
    8.5.2  重參數化技巧與路徑導數
    8.5.3  實驗
  8.6  熵解釋
  8.7  軟演員-評論家
    8.7.1  SAC與TD
    8.7.2  熵-正則化下的Q-損失
    8.7.3  具有重參數技巧的策略損失
    8.7.4  偽代碼及其實現
    8.7.5  代碼實現
  8.8  總結
第9章  綜合規劃與學習
  9.1  基於模型的強化學習
    9.1.1  使用學習的模型進行規劃
    9.1.2  集成學習與規劃
    9.1.3  Dyna Q和變化的環境
    9.1.4  Dyna Q+
    9.1.5  期望與示例更新
  9.2  探索vs利用
    9.2.1  多臂強盜
    9.2.2  後悔值: 探索質量的衡量標準
  9.3  決策時間規劃和蒙特卡洛樹搜索
  9.4  AlphaGo模擬實驗
  9.5  總結
第10章  進一步的探索與後續工作
  10.1  基於模型的強化學習其他方法
    10.1.1  世界模型
    10.1.2  想象力增強智能體
    10.1.3  基於模型的強化學習和無模型微調
    10.1.4  基於模型的價值擴展
  10.2  模仿學習和逆強化學習
  10.3  無導數方法
  10.4  遷移學習和多任務學習
  10.5  元學習

  10.6  流行的強化學習庫
  10.7  如何繼續學習
  10.8  總結
術語

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032