幫助中心 | 我的帳號 | 關於我們

強化學習(前沿演算法與應用)/人工智慧科學與技術叢書

  • 作者:編者:白辰甲//趙英男//郝建業//劉鵬//王震|責編:李曉波
  • 出版社:機械工業
  • ISBN:9787111724780
  • 出版日期:2023/05/01
  • 裝幀:平裝
  • 頁數:288
人民幣:RMB 109 元      售價:
放入購物車
加入收藏夾

內容大鋼
    強化學習是機器學習的重要分支,是實現通用人工智慧的重要途徑。本書介紹了強化學習在演算法層面的快速發展,包括值函數、策略梯度、值分佈建模等基礎演算法,以及為了提升樣本效率產生的基於模型學習、探索與利用、多目標學習、層次化學習、技能學習等演算法,以及一些新興領域,包括離線學習、表示學習、元學習等,旨在提升數據高效性和策略的泛化能力的演算法,還介紹了應用領域中強化學習在智能控制、機器視覺、語言處理、醫療、推薦、金融等方面的相關知識。
    本書深入淺出、結構清晰、重點突出,系統地闡述了強化學習的前沿演算法和應用,適合從事人工智慧、機器學習、優化控制、機器人、遊戲開發等工作的專業技術人員閱讀,還可作為電腦、人工智慧、智能科學相關專業的研究生和高年級本科生的教材。

作者介紹
編者:白辰甲//趙英男//郝建業//劉鵬//王震|責編:李曉波

目錄
序言
前言
第1章  強化學習簡介
  1.1  從監督學習到強化學習
  1.2  強化學習的發展歷史
  1.3  強化學習的研究範疇
  1.4  強化學習的應用領域
第2章  強化學習基礎知識
  2.1  強化學習的核心概念
  2.2  馬爾可夫性和決策過程
  2.3  值函數和策略學習
第3章  基於值函數的強化學習演算法
  3.1  深度Q學習的基本理論
    3.1.1  深度Q網路
    3.1.2  經驗池
    3.1.3  目標網路
  3.2  深度Q學習的過估計
    3.2.1  過估計的產生原因
    3.2.2  Double Q-學習
  3.3  深度Q學習的網路改進和高效採樣
    3.3.1  Dueling網路
    3.3.2  高效採樣
  3.4  周期後序迭代Q學習
  3.5  Q學慣用于連續動作空間
    3.5.1  基於並行結構的Q學習
    3.5.2  基於順序結構的Q學習
  3.6  實例:使用值函數學習的Atari遊戲
    3.6.1  環境預處理
    3.6.2  Q網路的實現
    3.6.3  Q學習的核心步驟
第4章  策略梯度迭代的強化學習演算法
  4.1  REINFORCE策略梯度
    4.1.1  策略梯度的基本形式
    4.1.2  降低策略梯度的方差
  4.2  非同步策略梯度法
    4.2.1  引入優勢函數
    4.2.2  非同步策略梯度
  4.3  近端策略優化法
    4.3.1  裁剪的優化目標
    4.3.2  自適應的優化目標
  4.4  深度確定性策略梯度
    4.4.1  critic學習
    4.4.2  actor學習
    4.4.3  拓展1:探索雜訊
    4.4.4  拓展2:孿生DDPG
  4.5  熵策略梯度
    4.5.1  熵約束的基本原理
    4.5.2  SAC演算法
  4.6  實例:使用策略梯度的Mujoco任務
    4.6.1  actor-critic網路實現

    4.6.2  核心演算法實現
第5章  基於模型的強化學習方法
  5.1  如何使用模型來進行強化學習
  5.2  基於模型預測的規劃
    5.2.1  隨機打靶法
    5.2.2  集成概率軌跡採樣法
    5.2.3  基於模型和無模型的混合演算法
    5.2.4  基於想象力的隱式規劃方法
  5.3  黑盒模型的理論框架
    5.3.1  隨機下界優化演算法
    5.3.2  基於模型的策略優化演算法
  5.4  白盒模型的使用
    5.4.1  隨機值梯度演算法
    5.4.2  模型增強的actor-critic演算法
  5.5  實例:AlphaGo圍棋智能體
    5.5.1  網路結構介紹
    5.5.2  蒙特卡羅樹搜索
    5.5.3  總體訓練流程
第6章  值分散式強化學習演算法
  6.1  離散分佈投影的值分散式演算法
  6.2  分位數回歸的值分散式演算法
    6.2.1  分位數回歸
    6.2.2  Wasserstein距離
    6.2.3  QR-DQN演算法
    6.2.4  單調的分位數學習演算法
  6.3  隱式的值分佈網路
  6.4  基於值分佈的代價敏感學習
    6.4.1  IQN中的代價敏感學習
    6.4.2  基於IQN的actor-critic模型的代價敏感學習
  6.5  實例:基於值分佈的Q網路實現
    6.5.1  IQN模型構建
    6.5.2  IQN損失函數
第7章  強化學習中的探索演算法
  7.1  探索演算法的分類
  7.2  基於不確定性估計的探索
    7.2.1  參數化后驗的演算法思路
    7.2.2  重採樣DQN
  7.3  進行虛擬計數的探索
    7.3.1  基於圖像生成模型的虛擬計數
    7.3.2  基於哈希的虛擬計數
  7.4  根據環境模型的探索
    7.4.1  特徵表示的學習
    7.4.2  隨機網路蒸餾
    7.4.3  Never-Give-Up演算法
  7.5  實例:蒙特祖瑪復仇任務的探索
    7.5.1  RND網路結構
    7.5.2  RND的訓練
    7.5.3  RND用於探索
第8章  多目標強化學習演算法
  8.1  以目標為條件的價值函數

    8.1.1  熵HER
    8.1.2  動態目標HER
  8.2  監督式的多目標學習
    8.2.1  Hindsight模仿學習
    8.2.2  加權監督式多目標學習
  8.3  推廣的多目標學習
  8.4  實例:模擬機械臂的多目標抓取
    8.4.1  多目標實驗環境
    8.4.2  HER的實現方法
    8.4.3  MEP的演算法實現
第9章  層次化強化學習演算法
  9.1  層次化學習的重要性
  9.2  基於子目標的層次化學習
    9.2.1  封建網路的層次化學習
    9.2.2  離策略修正的層次化學習
    9.2.3  虛擬子目標的強化學習方法
  9.3  基於技能的層次化學習
    9.3.1  使用隨機網路的層次化學習
    9.3.2  共享分層的元學習方法
  9.4  基於選項的層次化學習
    9.4.1  option與半馬爾可夫決策過程
    9.4.2  option-critic結構
  9.5  實例:層次化學習螞蟻走迷宮任務
第10章  基於技能的強化學習演算法
  10.1  技能學習的定義
  10.2  互信息化的技能學習演算法
    10.2.1  多樣性化技能學習演算法
    10.2.2  其他基於互信息的技能學習方法
  10.3  融合環境模型的技能學習演算法
  10.4  化狀態覆蓋的技能學習演算法
  10.5  實例:人形機器人的技能學習
第11章  離線強化學習演算法
  11.1  離線強化學習中面臨的困難
  11.2  策略約束的離線學習
    11.2.1  BCQ演算法
    11.2.2  BRAC演算法
    11.2.3  TD3-BC演算法
  11.3  使用保守估計的離線學習
  11.4  基於不確定性的離線學習
    11.4.1  UWAC演算法
    11.4.2  MOPO演算法
    11.4.3  PBRL演算法
  11.5  監督式的離線學習
    11.5.1  DT演算法
    11.5.2  RVS演算法
  11.6  實例:使用離線學習的D4RL任務集
    11.6.1  D4RL數據集的使用
    11.6.2  CQL演算法實現
    11.6.3  TD3-BC演算法實現
第12章  元強化學習演算法

  12.1  元強化學習的定義
  12.2  基於網路模型的元強化學習方法
    12.2.1  使用循環神經網路的元強化學習方法
    12.2.2  基於時序卷積和軟注意力機制的方法
  12.3  元梯度學習
  12.4  元強化學習中的探索方法
    12.4.1  結構化雜訊探索方法
    12.4.2  利用后驗採樣進行探索
  12.5  實例:元學習訓練多任務獵豹智能體
第13章  高效的強化學習表示演算法
  13.1  為什麼要進行表示學習
  13.2  對比學習的特徵表示
    13.2.1  基本原理和SimCLR演算法
    13.2.2  MoCo演算法
    13.2.3  基於對比學習的CURL演算法
    13.2.4  基於對比學習的ATC演算法
    13.2.5  基於對比學習的DIM演算法
    13.2.6  對比學習和互信息理論
    13.2.7  完全基於圖像增廣的方法
  13.3  魯棒的特徵表示學習
    13.3.1  互模擬特徵
    13.3.2  信息瓶頸特徵
  13.4  使用模型預測的表示學習
  13.5  實例:魯棒的模擬自動駕駛
第14章  強化學習在智能控制中的應用
  14.1  機器人控制
    14.1.1  機械臂操作任務的控制
    14.1.2  足式機器人的運動控制
    14.1.3  多任務機器人控制
    14.1.4  面臨的挑戰
  14.2  電力優化控制
    14.2.1  電力管理任務
    14.2.2  需求響應
  14.3  交通指揮優化控制
    14.3.1  多信號燈合作控制
    14.3.2  大規模信號燈控制方法
    14.3.3  元強化學習信號燈控制
第15章  強化學習在機器視覺中的應用
  15.1  神經網路結構搜索
    15.1.1  利用強化學習解決NAS
    15.1.2  其他前沿方法
  15.2  目標檢測和跟蹤中的優化
    15.2.1  強化學習與目標檢測
    15.2.2  強化學習與實時目標跟蹤
  15.3  視頻分析
第16章  強化學習在語言處理中的應用
  16.1  知識圖譜系統
  16.2  智能問答系統
    16.2.1  事後目標回放法
    16.2.2  多任務對話系統

  16.3  機器翻譯系統
    16.3.1  NMT中獎勵的計算
    16.3.2  策略梯度方差處理
第17章  強化學習在其他領域中的應用
  17.1  醫療健康系統
    17.1.1  動態治療方案
    17.1.2  重症監護
    17.1.3  自動醫療診斷
  17.2  個性化推薦系統
    17.2.1  策略優化方法
    17.2.2  基於圖的對話推薦
  17.3  股票交易系統
    17.3.1  FinRL強化學習框架
    17.3.2  FinRL訓練示例

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032