幫助中心 | 我的帳號 | 關於我們

用Python動手學強化學習(第2版全彩印刷)/圖靈程序設計叢書

  • 作者:(日)久保隆宏|責編:杜曉靜|譯者:梁垿//程引
  • 出版社:人民郵電
  • ISBN:9787115564221
  • 出版日期:2021/07/01
  • 裝幀:平裝
  • 頁數:262
人民幣:RMB 89.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    強化學習是機器學習的重要分支之一。本書結合實際可運行的Python代碼,通過簡明的文字、豐富的插圖和示例,通俗易懂地介紹了從基礎概念到前沿應用等方方面面的內容,包括根據環境和經驗制訂計劃的學習方法、強化學習與神經網路的組合,以及強化學習的弱點和克服方法。讀者通過下載書中代碼並親自動手運行,可以快速入門強化學習並進行實踐。
    本書適合具有一定編程經驗、對強化學習感興趣的工程師閱讀。

作者介紹
(日)久保隆宏|責編:杜曉靜|譯者:梁垿//程引

目錄
第1章  了解強化學習
  1.1  強化學習與各關鍵詞之間的關係
  1.2  強化學習的優點和弱點
  1.3  強化學習的問題設定:馬爾可夫決策過程
第2章  強化學習的解法(1):根據環境制訂計劃
  2.1  價值的定義和計算:貝爾曼方程
  2.2  基於動態規劃法的價值近似的學習:價值迭代
  2.3  基於動態規劃法的策略的學習:策略迭代
  2.4  基於模型的方法和無模型的方法的區別
第3章  強化學習的解法(2):根據經驗制訂計劃
  3.1  平衡經驗的積累與利用:Epsilon-Greedy演算法
  3.2  是根據實際獎勵還是預測來修正計劃:蒙特卡洛方法和時序差分學習
  3.3  用經驗來更新價值近似還是策略:基於價值和基於策略
第4章  使用面向強化學習的神經網路
  4.1  將神經網路應用於強化學習
  4.2  通過含有參數的函數實現價值近似:價值函數近似
  4.3  將深度學習應用於價值近似:DQN
  4.4  通過含有參數的函數實現策略:策略梯度
  4.5  將深度學習應用於策略:A2C
  4.6  是價值近似還是策略呢
第5章  強化學習的弱點
  5.1  獲取樣本的效率低
  5.2  容易陷入局部最優行動和過擬合
  5.3  復現性差
  5.4  以弱點為前提的對策
第6章  克服強化學習弱點的方法
  6.1  應對採樣效率低的方法:與基於模型的方法一起使用、表徵學習
  6.2  改善復現性的方法:進化策略
  6.3  應對局部最優行動和過擬合的方法:模仿學習和逆強化學習
第7章  強化學習的應用領域
  7.1  行動的最優化
  7.2  學習的最優化
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032