幫助中心 | 我的帳號 | 關於我們

深度強化學習(基於Python的理論及實踐)/智能科學與技術叢書

  • 作者:(美)勞拉·格雷澤//龔輝倫|責編:姚蕾//游靜|譯者:許靜//過辰楷//金驍//劉磊//朱靜雯
  • 出版社:機械工業
  • ISBN:9787111689331
  • 出版日期:2021/09/01
  • 裝幀:平裝
  • 頁數:281
人民幣:RMB 119 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書圍繞深度強化學習進行講解,結構合理有序,內容重點突出,理論結合實踐,全面討論了深度強化學習的研究成果及實踐工具。本書分為四部分,共17章,涉及的主要內容包括:REINFORCE、SARSA、深度Q網路、改進的深度Q網路、優勢演員-評論家演算法、近端策略優化演算法、並行方法、深度強化學習工程實踐、SLM Lab、神經網路架構、硬體、狀態、動作、獎勵、轉換函數等。
    本書可以作為高等院校人工智慧、電腦、大數據等相關專業的本科或研究生教材,也可以作為人工智慧相關領域的研究人員和技術人員的參考書籍。

作者介紹
(美)勞拉·格雷澤//龔輝倫|責編:姚蕾//游靜|譯者:許靜//過辰楷//金驍//劉磊//朱靜雯

目錄
讚譽
譯者序
序言
前言
致謝
第1章  強化學習簡介
  1.1  強化學習
  1.2  強化學習中的MDP
  1.3  強化學習中的學習函數
  1.4  深度強化學習演算法
    1.4.1  基於策略的演算法
    1.4.2  基於值的演算法
    1.4.3  基於模型的演算法
    1.4.4  組合方法
    1.4.5  本書中的演算法
    1.4.6  同策略和異策略演算法
    1.4.7  小結
  1.5  強化學習中的深度學習
  1.6  強化學習與監督學習
    1.6.1  缺乏先知
    1.6.2  反饋稀疏性
    1.6.3  數據生成
  1.7  總結
第一部分  基於策略的演算法和基於值的演算法
  第2章  REINFORCE
    2.1  策略
    2.2  目標函數
    2.3  策略梯度
      2.3.1  策略梯度推導
    2.4  蒙特卡羅採樣
    2.5  REINFORCE演算法
      2.5.1  改進的REINFORCE演算法
    2.6  實現REINFORCE
      2.6.1  一種最小化REINFORCE的實現
      2.6.2  用PyTorch構建策略
      2.6.3  採樣動作
      2.6.4  計算策略損失
      2.6.5  REINFORCE訓練循環
      2.6.6  同策略內存回放
    2.7  訓練REINFORCE智能體
    2.8  實驗結果
      2.8.1  實驗:評估折扣因子γ的影響
      2.8.2  實驗:評估基準線的影響
    2.9  總結
    2.10  擴展閱讀
    2.11  歷史回顧
  第3章  SARSA
    3.1  Q函數和V函數
    3.2  時序差分學習
      3.2.1  時間差分學習示例

    3.3  SARSA中的動作選擇
      3.3.1  探索和利用
    3.4  SARSA演算法
  ……
第二部分  組合方法
第三部分  實踐細節
第四部分  環境設計
後記
附錄A  深度強化學習時間線
附錄B  示例環境
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032