幫助中心 | 我的帳號 | 關於我們

深度強化學習實踐(影印版)(英文版)

  • 作者:(俄羅斯)馬克西姆·拉潘
  • 出版社:東南大學
  • ISBN:9787564183219
  • 出版日期:2019/05/01
  • 裝幀:平裝
  • 頁數:523
人民幣:RMB 109 元      售價:NT$ 490.5
放入購物車
加入收藏夾

內容大鋼
    強化學習(RL)的最新發展結合深度學習(DL),在訓練代理以類似人的方式解決複雜問題方面取得了前所未有的進步。Google使用演算法在著名的Atari街機遊戲中獲勝將該領域推至高峰,研究人員也在源源不斷地產生新的想法。
    本書是關於最新DL工具及其局限性的全面指南。在應用於真實環境之前,你得評估包括交叉熵和策略梯度在內的多種方法。試試Atari的虛擬遊戲和像connect4這樣的家庭最愛。本書介紹了RL的基礎知識,為你提供了編寫智能學習代理所需的原理,以承擔一系列艱巨的實際任務。讓你了解如何在「網格世界」環境中實現Q-learning,教你的代理購買和交易股票,發現自然語言模型如何推動了聊天機器人的火爆。

作者介紹
(俄羅斯)馬克西姆·拉潘
    馬克西姆·拉潘(Maxim Lapan),is a deep learning enthusiast and independent researcher. His background and 15 years' work expertise as a software developer and a systems architect lays from low-level Linux kernel driver development to performance optimization and design of distributed applications working on thousands of servers. With vast work experiences in big data,Machine Learning, and large parallel distributed HPC and nonHPC systems, he has a talent to explain a gist of complicated things in simple words and vivid examples.His current areas of interest lie in practical applications of Deep Learning, such as Deep Natural Language Processing and Deep Reinforcement Learning.     Maxim lives in Moscow, Russian Federation, with his family, and he works for an Israeli start-up as a Senior NLP developer.

目錄
Preface
Chapter 1: What is Reinforcement Learning?
  Learning - supervised, unsupervised, and reinforcement
  RL formalisms and relations
    Reward
    The agent
    The environment
    Actions
    Observations
  Markov decision processes
    Markov process
    Markov reward process
    Markov decision process
  Summary
Chapter 2: OpenAI Gym
  The anatomy of the agent
  Hardware and software requirements
  OpenAI Gym API
    Action space
    Observation space
    The environment
    Creation of the environment
    The CartPole session
  The random CartPole agent
  The extra Gym functionality - wrappers and monitors
    Wrappers
    Monitor
  Summary
Chapter 3: Deep Learning with PyTorch
  Tensors
    Creation of tensors
    Scalar tensors
    Tensor operations
    GPU tensors
  Gradients
    Tensors and gradients
  NN building blocks
  Custom layers
  Final glue - loss functions and optimizers
    Loss functions
    Optimizers
  Monitoring with TensorBoard
    TensorBoard 101
    Plotting stuff
  Example -GAN on Atari images
  Summary
Chapter 4: The Cross-Entropy Method
  Taxonomy of RL methods
  Practical cross-entropy
  Cross-entropy on CartPole

  Cross-entropy on FrozenLake
  Theoretical background of the cross-entropy method
  Summary
Chapter 5: Tabular Learning and the Bellman Equation
  Value, state, and optimality
  The Bellman equation of optimality
  Value of action
  The value iteration method
  Value iteration in practice
  Q-learning for FrozenLake
  Summary
Chapter 6: Deep Q-Networks
Chapter 7: DQN Extensions
Chapter 8: Stocks Trading Using RL
Chapter 9: Policy Gradients - An Alternative
Chapter 10: The Actor-Critic Method
Chapter 11: Asynchronous Advantaqe Actor-Critic
Chapter 12: Chatbots Training with RL
Chapter 13: Web Navigation
Chapter 14: Continuous Action Space
Chapter 15: Trust Regions - TRPO, PPO, and ACKTR
Chapter 16: Black-Box Optimization in RL
Chapter 17: Beyond Model-Free - Imagination
Chapter 18: AlphaGo Zero
Other Books You May Enjoy
Index

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032