幫助中心 | 我的帳號 | 關於我們

深度強化學習實踐(原書第2版)/智能系統與技術叢書

  • 作者:(俄)馬克西姆·拉潘|責編:王春華//李忠明|譯者:林然//王薇
  • 出版社:機械工業
  • ISBN:9787111687382
  • 出版日期:2021/08/01
  • 裝幀:平裝
  • 頁數:617
人民幣:RMB 149 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書包括新的強化學習工具和技術,介紹了強化學習的基礎知識,以及如何動手編寫智能體以執行一系列實際任務。本書較上一版新增6章,專門介紹了強化學習的新發展,包括離散優化(解決魔方問題)、多智能體方法、Microsoft的TextWorld環境、高級探索技術等。學完本書,你將對這個新興領域的前沿技術有深刻的理解。此外,你將獲得對深度Q-network、策略梯度方法、連續控制問題以及高度可擴展的非梯度方法等領域的可行洞見,還將學會如何構建經過強化學習訓練、價格低廉的真實硬體機器人,並通過逐步代碼優化在短短30分鐘的訓練后解決Pong環境問題。
    簡而言之,本書將幫助你探索強化學習中令人興奮的複雜主題,讓你通過實例獲得經驗和知識。通過閱讀本書,你將:
    ·了解強化學習的深度學習上下文並實現複雜的深度學習模型。
    ·學會評估強化學習的方法,包括交叉熵、DQN、actor-critic、TRPO、PPO、DDPG、D4PG等。
    ·學會構建經過強化學習方法訓練的、價格低廉的硬體機器人。
    ·研究Microsoft的TextWorld環境,這是一個文字冒險遊戲平台。
    ·學會在強化學習中使用離散優化來解決魔方問題。
    ·學會教你的智能體使用AlphaGo Zero玩四子連橫棋。
    ·探索有關Al聊天機器人等主題的較新深度強化學習技術。
    ·研究先進的探索技術,包括雜訊網路和網路蒸餾技術。

作者介紹
(俄)馬克西姆·拉潘|責編:王春華//李忠明|譯者:林然//王薇

目錄
譯者序
前言
作者簡介
審校者簡介
第1章  什麼是強化學習
  1.1  機器學習分類
    1.1.1  監督學習
    1.1.2  非監督學習
    1.1.3  強化學習
  1.2  強化學習的複雜性
  1.3  強化學習的形式
    1.3.1  獎勵
    1.3.2  智能體
    1.3.3  環境
    1.3.4  動作
    1.3.5  觀察
  1.4  強化學習的理論基礎
    1.4.1  馬爾可夫決策過程
    1.4.2  策略
  1.5  總結
第2章  OpenAIGym
  2.1  剖析智能體
  2.2  硬體和軟體要求
  2.3  0penAIGymAPI
    2.3.1  動作空間
    2.3.2  觀察空間
    2.3.3  環境
    2.3.4  創建環境
    2.3.5  車擺系統
  2.4  隨機CartPole智能體
  2.5  Gym的額外功能:包裝器和監控器
    2.5.1  包裝器
    2.5.2  監控器
  2.6  總結
第3章  使用PyTorch進行深度學習
  3.1  張量
    3.1.1  創建張量
    3.1.2  零維張量
    3.1.3  張量操作
    3.1.4  GPU張量
  3.2  梯度
  3.3  NN構建塊
  3.4  自定義層
  3.5  最終黏合劑:損失函數和優化器
    3.5.1  損失函數
    3.5.2  優化器
  3.6  使用TensorBoard進行監控
    3.6.1  TensorBOard101
    3.6.2  繪圖
  3.7  示例:將GAN應用於Atari圖像

  3.8  PyTorchlgnite
  3.9  總結
第4章  交叉熵方法
  4.1  RL方法的分類
  4.2  交叉熵方法的實踐
  4.3  交叉熵方法在CartPole中的應用
  4.4  交叉熵方法在FrozenLake中的應用
  4.5  交叉熵方法的理論背景
  4.6  總結
第5章  表格學習和Bellman方程
  5.1  價值、狀態和最優性
  5.2  最佳Bellman方程
  5.3  動作的價值
  5.4  價值迭代法
  5.5  價值迭代實踐
  5.6  Q-Iearning在FrozenLake中的應用
  5.7  總結
第6章  深度Q.network
  6.1  現實的價值迭代
  6.2  表格Q-Iearning
  6.3  深度Q-learning
    6.3.1  與環境交互
    6.3.2  SGD優化
    6.3.3  步驟之間的相關性
    6.3.4  馬爾可夫性質
    6.3.5  DQN訓練的最終形式
  6.4  DQN應用於Pong遊戲
    6.4.1  包裝器
    6.4.2  DQN模型
    6.4.3  訓練
    6.4.4  運行和性能
    6.4.5  模型實戰
  6.5  可以嘗試的事情
  6.6  總結
第7章  高級強化學習庫
  7.1  為什麼使用強化學習庫
  7.2  PTAN庫
    7.2.1  動作選擇器
    7.2.2  智能體
    7.2.3  經驗源
    7.2.4  經驗回放緩衝區
    7.2.5  TargetNet類
    7.2.6  Ignite幫助類
  7.3  PTAN版本的CartPole解決方案
  7.4  其他強化學習庫
  7.5  總結
第8章  DQN擴展
  8.1  基礎DQN
    8.1.1  通用庫
    8.1.2  實現

    8.1.3  結果
  8.2  N步DQN
……
第9章  加速強化學習訓練的方法
第10章  使用強化學習進行股票交易
第11章  策略梯度:一種替代方法
第12章  actor-critic方法
第13章  A3C
第14章  使用強化學習訓練聊天機器人
第15章  TextWorld環境
第16章  Web導航
第17章  連續動作空間
第18章  機器人技術中的強化學習
第19章  置信域:PPO、TRPO、ACKTR及SAC
第20章  強化學習中的黑盒優化

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032