幫助中心 | 我的帳號 | 關於我們

深度強化學習/圖靈原創

  • 作者:王樹森//黎彧君//張志華|責編:劉美英
  • 出版社:人民郵電
  • ISBN:9787115600691
  • 出版日期:2022/11/01
  • 裝幀:平裝
  • 頁數:294
人民幣:RMB 129.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書基於備受讀者推崇的王樹森「深度強化學習」系列公開視頻課,專門解決「入門深度強化學習難」的問題。
    本書的獨特之處在於:第一,知識精簡,剔除一切不必要的概念和公式,學起來輕鬆;第二,內容新穎,聚焦近10年深度強化學習領域的突破,讓你一上手就緊跟最新技術。
    本書系統講解深度強化學習的原理與實現,但不迴避數學公式和各種模型,原創100多幅精美插圖,並以全彩印刷展示。簡潔清晰的語言+生動形象的圖示,助你掃除任何可能的學習障礙!本書內容分為五部分:基礎知識、價值學習、策略學習、多智能體強化學習、應用與展望,涉及DQN、A3C、TRPO、DDPG、AlphaGo等。
    本書面向深度強化學習入門讀者,助你構建完整的知識體系。學完本書,你能夠輕鬆看懂深度強化學習的實現代碼、讀懂該領域的論文、聽懂學術報告,具備進一步自學和深挖的能力。

作者介紹
王樹森//黎彧君//張志華|責編:劉美英

目錄
第一部分  基礎知識
  第1章  機器學習基礎
    1.1  線性模型
      1.1.1  線性回歸
      1.1.2  邏輯斯諦回歸
      1.1.3  softmax分類器
    1.2  神經網路
      1.2.1  全連接神經網路
      1.2.2  卷積神經網路
    1.3  梯度下降和反向傳播
      1.3.1  梯度下降
      1.3.2  反向傳播
    知識點小結
    習題
  第2章  蒙特卡洛方法
    2.1  隨機變數
    2.2  蒙特卡洛方法實例
      2.2.1  例一:近似π值
      2.2.2  例二:估算陰影部分面積
      2.2.3  例三:近似定積分
      2.2.4  例四:近似期望
      2.2.5  例五:隨機梯度
    知識點小結
    習題
  第3章  強化學習基本概念
    3.1  馬爾可夫決策過程
      3.1.1  狀態、動作、獎勵
      3.1.2  狀態轉移
    3.2  策略
    3.3  隨機性
    3.4  回報與折扣回報
      3.4.1  回報
      3.4.2  折扣回報
      3.4.3  回報中的隨機性
      3.4.4  有限期MDP和無限期MDP
    3.5  價值函數
      3.5.1  動作價值函數
      3.5.2  最優動作價值函數
      3.5.3  狀態價值函數
    3.6  實驗環境:OpenAIGym
    知識點小結
    習題
第二部分  價值學習
  第4章  DQN與Q學習
    4.1  DQN
      4.1.1  概念回顧
第三部分  策略學習
第四部分  多智能體強化學習
第五部分  應用與展望
附錄A  貝爾曼方程

附錄B  習題答案
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032