幫助中心 | 我的帳號 | 關於我們

深度強化學習實戰--用OpenAI Gym構建智能體/深度學習系列

  • 作者:(印)普拉文·巴拉尼沙米|責編:吳晉瑜|譯者:洪賢斌//湯奎樺
  • 出版社:人民郵電
  • ISBN:9787115561596
  • 出版日期:2023/06/01
  • 裝幀:平裝
  • 頁數:170
人民幣:RMB 69.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    這是一本介紹用OpenAI Gym構建智能體的實戰指南。全書先簡要介紹智能體和學習環境的一些入門知識,概述強化學習和深度強化學習的基本概念和知識點,然後重點介紹OpenAI Gym的相關內容,隨後在具體的Gym環境中運用強化學習演算法構建智能體。本書還探討了這些演算法在遊戲、自動駕駛領域的應用。
    本書適合想用OpenAI Gym構建智能體的讀者閱讀,也適合對強化學習和深度強化學習感興趣的讀者參考。讀者應具備一定的Python編程基礎。

作者介紹
(印)普拉文·巴拉尼沙米|責編:吳晉瑜|譯者:洪賢斌//湯奎樺

目錄
第1章  智能體與學習環境入門
  1.1  智能體簡介
  1.2  學習環境
  1.3  OpenAI Gym簡介
  1.4  理解OpenAI Gym的主要特性
    1.4.1  簡單的環境介面
    1.4.2  可比較與可復現
    1.4.3  進程可監控
  1.5  OpenAI Gym工具包的作用
  1.6  創建第一個OpenAI Gym環境
  1.7  小結
第2章  強化學習和深度強化學習
  2.1  強化學習簡介
  2.2  直觀理解人工智慧的含義和內容
    2.2.1  監督學習
    2.2.2  非監督學習
    2.2.3  強化學習
  2.3  強化學習實戰
    2.3.1  智能體
    2.3.2  獎勵
    2.3.3  環境
    2.3.4  狀態
    2.3.5  模型
    2.3.6  值函數
    2.3.7  策略
  2.4  馬爾可夫決策過程
  2.5  動態規劃
  2.6  蒙特卡洛學習和時序差分學習
  2.7  SARSA和Q-Learning
  2.8  深度強化學習
  2.9  強化學習和深度強化學習演算法的實踐應用
  2.10  小結
第3章  開啟OpenAI Gym和深度強化學習之旅
  3.1  代碼庫、設置和配置
    3.1.1  先決條件
    3.1.2  創建conda環境
    3.1.3  最小化安裝——快捷簡便的方法
    3.1.4  完整安裝OpenAI Gym學習環境
  3.2  安裝深度強化學習所需的工具和庫
    3.2.1  安裝必備的系統軟體包
    3.2.2  安裝CUDA
    3.2.3  安裝PyTorch
  3.3  小結
第4章  探索Gym及其功能
  4.1  探索環境列表和術語
    4.1.1  術語
    4.1.2  探索Gym環境
  4.2  理解Gym介面
  4.3  Gym中的空間
  4.4  小結

第5章  實現第一個智能體—解決過山車問題
  5.1  了解過山車問題
  5.2  從零開始實現Q-Learning智能體
    5.2.1  Q-Learning回顧
    5.2.2  使用Python和NumPy實現Q-Learning智能體
  5.3  在Gym中訓練強化學習智能體
  5.4  測試並記錄智能體的性能
  5.5  一個簡單且完整的Q-Learner實現——過山車問題的解決方案
  5.6  小結
第6章  用深度Q-Learning實現最優化控制智能體
  6.1  優化Q-Learning智能體
    6.1.1  用神經網路近似Q函數
    6.1.2  經驗回放
    6.1.3  重溫ε-貪婪動作策略
  6.2  實現一個深度Q-Learning智能體
    6.2.1  用PyTorch實現一個深度卷積Q網路
    6.2.2  使用目標Q網路穩定智能體的學習
    6.2.3  記錄和可視化智能體的學習過程
    6.2.4  管理超參數和配置參數
    6.2.5  用完整的深度Q-Learner處理輸入為原始像素的複雜問題
  6.3  Atari Gym環境
  6.4  訓練深度Q-Learner玩Atari遊戲
    6.4.1  整合一個完整的深度Q-Learner
    6.4.2  超參數
    6.4.3  啟動訓練過程
    6.4.4  在Atari遊戲中測試深度Q-Learner的性能
  6.5  小結
第7章  創建自定義OpenAI Gym環境——CARLA
  7.1  理解Gym環境結構
    7.1.1  為自定義Gym環境實現創建模板
    7.1.2  在OpenAI Gym環境中註冊自定義環境
  7.2  創建與OpenAI Gym兼容的CARLA環境
    7.2.1  配置和初始化
    7.2.2  實現reset方法
    7.2.3  為CARLA環境實現step函數
    7.2.4  測試CARLA Gym環境
  7.3  小結
第8章  用深度演員-評論家演算法實現無人駕駛智能體
  8.1  深度n步優勢演員-評論家演算法
    8.1.1  策略梯度
    8.1.2  演員-評論家演算法
    8.1.3  優勢演員-評論家演算法
    8.1.4  n步優勢演員-評論家演算法
    8.1.5  深度n步優勢演員-評論家演算法
  8.2  實現深度n步優勢演員-評論家智能體
    8.2.1  初始化演員和評論家網路
    8.2.2  用當前策略獲取n步經驗
    8.2.3  計算演員和評論家的損失
    8.2.4  更新演員-評論家模型
    8.2.5  用於保存/載入、記錄、可視化和監視的工具

    8.2.6  擴展——非同步深度n步優勢演員-評論家
  8.3  訓練一個「聰明」的自動駕駛智能體
    8.3.1  訓練和測試深度n步優勢演員-評論家智能體
    8.3.2  訓練智能體在CARLA中駕駛車輛
  8.4  小結
第9章  探索學習環境全景——Roboschool、Gym Retro、StarCraft-Ⅱ和DeepMind Lab
  9.1  Gym介面兼容的環境
    9.1.1  Roboschool
    9.1.2  Gym Retro
  9.2  其他基於Python的開源學習環境
    9.2.1  星際爭霸Ⅱ—PySC
    9.2.2  DeepMind Lab
  9.3  小結
第10章  探索學習演算法世界——DDPG(演員-評論家)、PPO(策略梯度)、Rainbow(基於值)
  10.1  深度確定性策略梯度
  10.2  近端策略優化
  10.3  Rainbow
    10.3.1  核心概念
    10.3.2  優點及應用簡要總結
  10.4  小結

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032