幫助中心 | 我的帳號 | 關於我們

深度強化學習實戰/深度學習系列

  • 作者:(美)亞歷山大·扎伊//布蘭登·布朗|責編:吳晉瑜|譯者:李?
  • 出版社:人民郵電
  • ISBN:9787115576361
  • 出版日期:2023/04/01
  • 裝幀:平裝
  • 頁數:296
人民幣:RMB 119.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書先介紹深度強化學習的基礎知識及相關演算法,然後給出多個實戰項目,以期讓讀者可以根據環境的直接反饋對智能體加以調整和改進,進一步提升運用深度強化學習技術解決實際問題的能力。本書涵蓋深度Q網路、策略梯度法、演員-評論家演算法、進化演算法、Dist-DQN、多智能體強化學習、可解釋性強化學習等內容。本書給出的實戰項目緊貼深度強化學習技術的發展趨勢,且所有項目示例以Jupter Notebook樣式給出,便於讀者修改代碼、觀察結果並及時獲取經驗,能夠帶給讀者互動式的學習體驗。

作者介紹
(美)亞歷山大·扎伊//布蘭登·布朗|責編:吳晉瑜|譯者:李?

目錄
第一部分  基礎篇
  第1章  什麼是強化學習
    1.1  深度強化學習中的「深度」
    1.2  強化學習
    1.3  動態規劃與蒙特卡洛
    1.4  強化學習框架
    1.5  強化學習可以做什麼
    1.6  為什麼是深度強化學習
    1.7  教學工具:線圖
    1.8  後續內容概述
    小結
  第2章  強化學習問題建模:馬爾可夫決策過程
    2.1  線圖與本書的教學方法
    2.2  解決多臂老虎機問題
      2.2.1  探索與利用
      2.2.2  貪婪策略
      2.2.3  Softmax選擇策略
    2.3  應用老虎機演算法優化廣告投放
      2.3.1  上下文老虎機
      2.3.2  狀態、動作和獎勵
    2.4  利用PyTorch構建網路
      2.4.1  自動微分
      2.4.2  構建模型
    2.5  解決上下文老虎機問題
    2.6  馬爾可夫性質
    2.7  預測未來獎勵:價值和策略函數
      2.7.1  策略函數
      2.7.2  最優策略
      2.7.3  價值函數
    小結
  第3章  預測最佳狀態和動作:深度Q網路
    3.1  Q函數
    3.2  Q-learning導航
      3.2.1  Q-learning是什麼
      3.2.2  應用於Gridworld遊戲
      3.2.3  超參數
      3.2.4  貼現因子
      3.2.5  構建網路
      3.2.6  介紹Gridworld遊戲引擎
      3.2.7  構建Q函數的神經網路
    3.3  防止災難性遺忘:經驗回放
      3.3.1  災難性遺忘
      3.3.2  經驗回放
    3.4  利用目標網路提高穩定性學習的不穩定性
    3.5  回顧
    小結
  第4章  學習選擇最佳策略:策略梯度法
    4.1  使用神經網路的策略函數
      4.1.1  神經網路作為策略函數
      4.1.2  隨機策略梯度

      4.1.3  探索
    4.2  強化良好動作:策略梯度演算法
      4.2.1  定義目標
      4.2.2  強化動作
      4.2.3  對數概率
      4.2.4  信用分配
    4.3  與OpenAI Gym配合
      4.3.1  CartPole
      4.3.2  OpenAI Gym API
    4.4  REINFORCE演算法
      4.4.1  創建策略網路
      4.4.2  使智能體與環境交互
      4.4.3  訓練模型
      4.4.4  完整訓練循環
      4.4.5  所得到的結論
    小結
  第5章  利用演員-評論家演算法解決更複雜的問題
    5.1  重構價值-策略函數
    5.2  分散式訓練
    5.3  演員-評論家優勢演算法
    5.4  N-step演員-評論家演算法
    小結
第二部分  進階篇
  第6章  可替代的優化方法:進化演算法
    6.1  另一種強化學習方法
    6.2  具有進化策略的強化學習
      6.2.1  進化理論
      6.2.2  進化實踐
    6.3  CartPole的遺傳演算法
    6.4  進化演算法的優缺點
      6.4.1  進化演算法探索更多
      6.4.2  進化演算法令人難以置信的樣本密集性
      6.4.3  模擬器
    6.5  進化演算法作為一種可擴展的替代方案
      6.5.1  擴展的進化演算法
      6.5.2  並行與串列處理
      6.5.3  擴展效率
      6.5.4  節點間通信
      6.5.5  線性擴展
      6.5.6  擴展基於梯度的演算法
    小結
  第7章  Dist-DQN:獲取完整故事
    7.1  Q-learning存在的問題
    7.2  再論概率統計
      7.2.1  先驗和后驗
      7.2.2  期望和方差
    7.3  貝爾曼方程分散式貝爾曼方程
    7.4  分散式Q-learning
      7.4.1  使用Python表示概率分佈
      7.4.2  實現Dist-DQN

    7.5  比較概率分佈
    7.6  模擬數據上的Dist-DQN
    7.7  使用分散式Q-learning玩Freeway
    小結
  第8章  好奇心驅動的探索
    8.1  利用預測編碼處理稀疏獎勵
    8.2  反向動態預測
    8.3  搭建《超級馬里奧兄弟》環境
    8.4  預處理和Q網路
    8.5  創建Q網路和策略函數
    8.6  內在好奇心模塊
    8.7  可替代的內在獎勵機制
    小結
  第9章  多智能體強化學習
    9.1  從單個到多個智能體
    9.2  鄰域Q-learning
    9.3  一維伊辛模型
    9.4  平均場Q-learning和二維伊辛模型
    9.5  混合合作競技遊戲
    小結
  第10章  強化學習可解釋性:注意力和關係模型
    10.1  帶注意力和關係偏差的機器學習可解釋性不變性和等變性
    10.2  利用注意力進行關係推理
      10.2.1  注意力模型
      10.2.2  關係推理
      10.2.3  自注意力模型
    10.3  對MNIST實現自注意力
      10.3.1  轉換的MNIST
      10.3.2  關係模塊
      10.3.3  張量縮並和愛因斯坦標記法
      10.3.4  訓練關係模塊
    10.4  多頭注意力和關係DQN
    10.5  雙Q-learning
    10.6  訓練和注意力可視化
      10.6.1  最大熵學習
      10.6.2  課程學習
      10.6.3  可視化注意力權重
    小結
  第11章  總結:回顧和路線圖
    11.1  我們學到了什麼
    11.2  深度強化學習中的未知課題
      11.2.1  優先經驗回放
      11.2.2  近端策略優化
      11.2.3  分層強化學習和options框架
      11.2.4  基於模型的規劃
      11.2.5  蒙特卡洛樹搜索
  全書結語
附錄A  數學、深度學習和PyTorch
  A.1  線性代數
  A.2  微積分

  A.3  深度學習
  A.4  PyTorch
參考資料

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032