幫助中心 | 我的帳號 | 關於我們

TensorFlow強化學習快速入門指南--使用Python動手搭建自學習的智能體/大數據叢書

  • 作者:(美)考希克·巴拉克里希南|責編:王康//路乙達//劉麗敏|譯者:趙衛東
  • 出版社:機械工業
  • ISBN:9787111648123
  • 出版日期:2020/05/01
  • 裝幀:平裝
  • 頁數:108
人民幣:RMB 45 元      售價:
放入購物車
加入收藏夾

內容大鋼
    強化學習是一類重要的機器學習方法,在很多領域得到了成功的應用,最近幾年與深度學習結合起來,進一步推動了人工智慧的發展。本書首先介紹了強化學習的基本原理,然後介紹典型的強化學習演算法,包括時序差分、SARSA、Q-Learning、DeepQ-network、Double DQN、競爭網路結構、Rainbow、Actor-Critic、A2C、A3C、TRPO和PPO等,每種演算法基本上利用了主流的開源機器學習框架TensorFlow,使用Python編程進行實現。此外,還介紹了一些上述演算法的應用。本書可以使讀者快速理解強化學習的基本知識,並通過簡單的案例加深對演算法的理解。本書適合對強化學習感興趣的普通高校師生以及相關專業人員閱讀。

作者介紹
(美)考希克·巴拉克里希南|責編:王康//路乙達//劉麗敏|譯者:趙衛東

目錄
譯者序
前言
第1章  強化學習的啟動和運行
  1.1  為何選擇強化學習
    闡述強化學習問題
  1.2  agent及其環境之間的關係
    1.2.1  定義agent的狀態
    1.2.2  定義agent的行為
    1.2.3  了解策略、價值函數和優勢函數
  1.3  認識回合
  1.4  認識獎勵函數和折扣獎勵獎勵
  1.5  學習馬爾可夫決策過程
  1.6  定義貝爾曼方程
  1.7  同步策略與非同步策略學習
    1.7.1  同步策略方法
    1.7.2  非同步策略方法
  1.8  無模型訓練和基於模型訓練
  1.9  本書中涉及的演算法
  總結
  思考題
  擴展閱讀
第2章  時序差分、SARSA與Q-Learning
  2.1  技術需求
  2.2  理解TD學習
    價值函數與狀態之間的關係
  2.3  理解SARSA與Q-Learning
    2.3.1  學習SARSA
    2.3.2  理解Q-Learning
  2.4  懸崖徒步與網格世界問題
    2.4.1  SARSA下的懸崖徒步
    2.4.2  Q-Learning下的懸崖徒步
    2.4.3  SARSA下的網格世界
  總結
  擴展閱讀
第3章  深度Q網路
  3.1  技術需求
  3.2  學習DQN原理
  3.3  理解目標網路
  3.4  了解重放緩衝區
  3.5  Atari環境介紹
    3.5.1  Atari遊戲概述
    3.5.2  用TensorFlow編寫DQN
  3.6  驗證DQN在Atari Breakout上的性能
  總結
  思考題
  擴展閱讀
第4章  Double DQN、競爭網路結構和Rainbow
  4.1  技術需求
  4.2  了解Double DQN
    4.2.1  編寫DDQN並訓練解決Atari Breakout問題

    4.2.2  在Atari Breakout問題中評估DDQN的性能
  4.3  理解競爭網路結構
    4.3.1  編寫競爭網路結構並訓練其解決Atari Breakout問題
    4.3.2  在Atari Breakout中評估競爭網路結構的性能
  4.4  了解Rainbow網路DQN改進
  4.5  在Dopamine上運行Rainbow網路
    使用Dopamine運行Rainbow
  總結
  思考題
  擴展閱讀
第5章  深度確定性策略梯度
  5.1  技術需求
  5.2  Actor-Critic演算法和策略梯度策略梯度
  5.3  深度確定性策略梯度
    5.3.1  編寫ddpg.py
    5.3.2  編寫AandC.py
    5.3.3  編寫TrainOrTest.py
    5.3.4  編寫replay_buffer.py
  5.4  在Pendulum-v0中訓練和測試DDPG
  總結
  思考題
  擴展閱讀
第6章  非同步的方法——A3C和A2C
  6.1  技術需求
  6.2  A3C演算法
    6.2.1  損失函數
    6.2.2  CartPole and LunarLander
  6.3  A3C演算法在CartPole中的應用
    6.3.1  編寫cartpole.py
    6.3.2  編寫a3c.py
    6.3.3  Worker類
    6.3.4  編寫utils.py
    6.3.5  CartPole訓練
  6.4  A3C演算法在LunarLander中的應用
    6.4.1  編寫lunar.py
    6.4.2  在LunarLander上訓練
  6.5  A2C演算法
  總結
  思考題
  擴展閱讀
第7章  信任區域策略優化和近端策略優化
  7.1  技術需求
  7.2  學習TRPO
    TRPO方程
  7.3  學習PPO
    PPO損失函數
  7.4  使用PPO解決Mountain Car問題
    7.4.1  編寫class_ppo.py
    7.4.2  編寫train_test.py
  7.5  評估性能

  7.6  馬力全開
  7.7  隨機發力
  總結
  思考題
  擴展閱讀
第8章  深度強化學習在自動駕駛中的應用
  8.1  技術需求
  8.2  汽車駕駛模擬器
  8.3  學習使用ORCS
    8.3.1  狀態空間
    8.3.2  支持文件
  8.4  訓練 DDPG agent來學習駕駛
    8.4.1  編寫ddpg.py
    8.4.2  編寫AandC.py
    8.4.3  編寫TrainOrTest.py
  8.5  訓練 PPO agent
  總結
  思考題
  擴展閱讀
附錄  思考題答案

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032