幫助中心 | 我的帳號 | 關於我們

強化學習入門(從原理到實踐)

  • 作者:編者:葉強//閆維新//黎斌|責編:遲振春
  • 出版社:機械工業
  • ISBN:9787111661269
  • 出版日期:2020/09/01
  • 裝幀:平裝
  • 頁數:183
人民幣:RMB 79 元      售價:
放入購物車
加入收藏夾

內容大鋼
    強化學習主要研究的問題是:具有一定思考和行為能力的個體在與其所處的環境進行交互的過程中,通過學習策略達到收穫最大化或實現特定的目標。
    本書以理論和實踐相結合的形式深入淺出地介紹強化學習的歷史、基本概念、經典演算法和一些前沿技術,共分為三大部分:第一部分(第1?5章)介紹強化學習的發展歷史、基本概念以及一些經典的強化學習演算法;第二部分(第6?9章)在簡要回顧深度學習技術的基礎上著重介紹深度強化學習的一些前沿實用演算法;第三部分(第10章)以五子棋為例詳細講解戰勝了人類頂級圍棋選手的Alpha Zero演算法的核心思想。
    對於本書介紹的每一個經典演算法,我們都結合了一定的應用場景,詳細介紹如何用Python代碼來實現。
    本書既可以作為電腦專業高年級本科生及碩士生關於人工智慧領域的入門參考讀物,也可以作為對人工智慧技術(特別是強化學習技術)感興趣的人員理解強化學習思想的補充讀物。

作者介紹
編者:葉強//閆維新//黎斌|責編:遲振春

目錄
前言
致謝
常用數學符號
主要演算法列表
第1章  概述
  1.1  強化學習的歷史
  1.2  強化學習的基本概念
  1.3  章節組織
  1.4  編程環境與代碼資源
第2章  從一個示例到馬爾可夫決策過程
  2.1  馬爾可夫過程
  2.2  馬爾可夫獎勵過程
  2.3  馬爾可夫決策過程
  2.4  編程實踐:學生馬爾可夫決策示例
    2.4.1  收穫和價值的計算
    2.4.2  驗證貝爾曼方程
第3章  動態規劃尋找最優策略
  3.1  策略評估
  3.2  策略迭代
  3.3  價值迭代
  3.4  非同步動態規劃演算法
  3.5  編程實踐:動態規劃求解小型格子世界最優策略
    3.5.1  小型格子世界MDP建模
    3.5.2  策略評估
    3.5.3  策略迭代
    3.5.4  價值迭代
第4章  不基於模型的預測
  4.1  蒙特卡羅強化學習
  4.2  時序差分強化學習
  4.3  n步時序差分學習
  4.4  編程實踐:蒙特卡羅學習評估21點遊戲的玩家策略
    4.4.1  21點遊戲規則
    4.4.2  將21點遊戲建模為強化學習問題
    4.4.3  遊戲場景的搭建
    4.4.4  生成對局數據
    4.4.5  策略評估
第5章  無模型的控制
  5.1  行為價值函數的重要性
  5.2  ?貪婪策略
  5.3  同策略蒙特卡羅控制
  5.4  同策略時序差分控制
    5.4.1  Sarsa演算法
    5.4.2  Sarsa(λ)演算法
    5.4.3  比較Sarsa和Sarsa(λ)
  5.5  異策略Q學習演算法
  5.6  編程實踐:蒙特卡羅學習求解21點遊戲的最優策略
  5.7  編程實踐:構建基於gym的有風的格子世界及個體
    5.7.1  gym庫簡介
    5.7.2  狀態序列的管理
    5.7.3  個體基類的編寫

  5.8  編程實踐:各類學習演算法的實現及與有風的格子世界的交互
    5.8.1  Sarsa演算法
    5.8.2  Sarsa(λ)演算法
    5.8.3  Q學習演算法
第6章  價值函數的近似表示
  6.1  價值近似的意義
  6.2  目標函數與梯度下降
    6.2.1  目標函數
    6.2.2  梯度和梯度下降
  6.3  常用的近似價值函數
    6.3.1  線性近似
    6.3.2  神經網路
    6.3.3  卷積神經網路近似
  6.4  DQN演算法
  6.5  編程實踐:基於PyTorch實現DQN求解PuckWorld問題
    6.5.1  基於神經網路的近似價值函數
    6.5.2  實現DQN求解PuckWorld問題
第7章  基於策略梯度的深度強化學習
  7.1  基於策略學習的意義
  7.2  策略目標函數
  7.3  Actor-Critic演算法
  7.4  深度確定性策略梯度演算法
  7.5  編程實踐:DDPG演算法實現
    7.5.1  連續行為空間的PuckWorld環境
    7.5.2  Actor-Critic網路的實現
    7.5.3  確定性策略下探索的實現
    7.5.4  DDPG演算法的實現
    7.5.5  DDPG演算法在PuckWorld環境中的表現
第8章  基於模型的學習和規劃
  8.1  環境的模型
  8.2  整合學習與規劃——Dyna演算法
  8.3  基於模擬的搜索
    8.3.1  簡單蒙特卡羅搜索
    8.3.2  蒙特卡羅樹搜索
第9章  探索與利用
  9.1  多臂遊戲機
  9.2  常用的探索方法
    9.2.1  衰減的?貪婪探索
    9.2.2  不確定行為優先探索
    9.2.3  基於信息價值的探索
第10章  Alpha Zero演算法實戰
  10.1  自博弈中的蒙特卡羅樹搜索
  10.2  模型評估中的蒙特卡羅搜索
  10.3  策略價值網路結構及策略提升
  10.4  編程實踐:Alpha Zero演算法在五子棋上的實現
    10.4.1  從零開始搭建棋盤環境
    10.4.2  搭建兩種MCTS以實現Alpha Zero自博弈與模型評估
    10.4.3  搭建策略價值網路並進行策略提升
    10.4.4  訓練自己的Alpha Zero模型
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032