幫助中心 | 我的帳號 | 關於我們

深度強化學習(基於Python的理論及實踐英文版)/經典原版書庫

  • 作者:(美)勞拉·格雷澤//龔輝倫|責編:唐曉琳
  • 出版社:機械工業
  • ISBN:9787111670407
  • 出版日期:2021/01/01
  • 裝幀:平裝
  • 頁數:362
人民幣:RMB 119 元      售價:
放入購物車
加入收藏夾

內容大鋼
    深度強化學習結合了深度學習和強化學習,使人工智慧體能夠在沒有監督的情況下學習如何解決順序決策問題。在過去的十年中,深度強化學習在一系列問題上取得了顯著的成果,涵蓋從單機遊戲和多人遊戲到機器人技術等方方面面。本書採用理論結合實踐的方法,從直覺開始,然後仔細解釋深度強化學習演算法的理論,討論在配套軟體庫SLMLab中的實現,最後呈現深度強化學習演算法的實踐細節。

作者介紹
(美)勞拉·格雷澤//龔輝倫|責編:唐曉琳

目錄
第1章  強化學習簡介
  1.1  強化學習
  1.2  強化學習中的MDP
  1.3  強化學習中的學習函數
  l.4  深度強化學習演算法
    1.4.1  基於策略的演算法
    1.4.2  基於值的演算法
    1.4.3  基於模型的演算法
    1.4.4  組合方法
    1.4.5  本書中的演算法
    1.4.6  同策略和異策略演算法
    1.4.7  小結
  1.5  強化學習中的深度學習
  1.6  強化學習與監督學習
    1.6.1  缺乏先知
    1.6.2  反饋稀疏性
    1.6.3  數據生成
  1.7  總結
第一部分  基於策略的演算法和基於值的演算法
第2章  REINFORCE
  2.1  策略
  2.2  目標函數
  2.3  策略梯度
    2.3.1  策略梯度推導
  2.4  蒙特卡羅採樣
  2.5  REINFORCE演算法
    2.5.1  改進的REINFORCE演算法
  2.6  實現REINFORcE
    2.6.1  一種最小化RINFORCE的實現
    2.6.2  用PvTorch構建策略
    2.6.3  採樣動作
    2.6.4  計算策略損失
    2.6.5  REINFORCE訓練循環
    2.6.6  同策略內存回放
  2.7  訓練REINFORCE智能體
  2.8  實驗結果
    2.8.1  實驗:評估折扣因子y的影響
    2.8.2  實驗:評估基準線的影響
  2.9  總結
  2.10  擴展閱讀
  2.11  歷史回顧
第3章  SARSA
  3.1  Q函數和V函數
  3.2  時序差分學習
    3.2.1  時序差分學習示例
  3.3  sARsA中的動作選擇
    3.3.1  探索和利用
  3.4  SARSA演算法
    3.4.1  同策略演算法
  3.5  實現SARSA

    3.5.1  動作函數:□貪婪
    3.5.2  計算Q損失
    3.5.3  SARSA訓練循環
    3.5.4  同策略批處理內存回放
  3.6  訓練sARsA智能體
  3.7  實驗結果
    3.7.1  實驗:評估學習率的影響
  3.8  總結
  3.9  擴展閱讀
  3.10  歷史回顧
  ……
第二部分  組合方法
第三部分  實踐細節
第四部分  環境設計
後記
附錄
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032