幫助中心 | 我的帳號 | 關於我們

深度強化學習(演算法原理與金融實踐入門)

  • 作者:編者:謝文傑//周煒星|責編:杜楊
  • 出版社:清華大學
  • ISBN:9787302641063
  • 出版日期:2023/09/01
  • 裝幀:平裝
  • 頁數:245
人民幣:RMB 69 元      售價:
放入購物車
加入收藏夾

內容大鋼
    深度強化學習是人工智慧和機器學習的重要分支領域,有著廣泛應用,如AlphaGo和ChatGPT。本書作為該領域的入門教材,在內容上盡可能覆蓋深度強化學習的基礎知識和經典演算法。全書共10章,大致分為4部分:第1部分(第1?2章)介紹深度強化學習背景(智能決策、人工智慧和機器學習);第2部分(第3?4章)介紹深度強化學習基礎知識(深度學習和強化學習);第3部分(第5?9章)介紹深度強化學習經典演算法(DQN、AC、DDPG等);第4部分(第10章)為總結和展望。每章都附有習題並介紹了相關閱讀材料,以便有興趣的讀者進一步深入探索。
    本書可作為高等院校電腦、智能金融及相關專業的本科生或研究生教材,也可供對深度強化學習感興趣的研究人員和工程技術人員閱讀參考。

作者介紹
編者:謝文傑//周煒星|責編:杜楊

目錄
第1章  智能決策與複雜系統
  1.1  智能決策
    1.1.1  智能決策簡介
    1.1.2  複雜金融系統中的智能決策
  1.2  複雜系統
    1.2.1  複雜性科學
    1.2.2  複雜系統定義
    1.2.3  複雜系統類型
    1.2.4  複雜系統研究
  1.3  複雜環境特徵
    1.3.1  完全可觀察的和部分可觀察的環境
    1.3.2  單智能體和多智能體
    1.3.3  確定的和隨機的環境
    1.3.4  片段式和延續式環境
    1.3.5  靜態和動態環境
    1.3.6  離散和連續環境
    1.3.7  已知和未知環境
  1.4  複雜環境建模
  1.5  智能體建模
    1.5.1  典型決策系統模型框架
    1.5.2  智能體建模框架
  1.6  智能決策系統建模
    1.6.1  問題提煉
    1.6.2  數據採集
    1.6.3  模型構建
    1.6.4  演算法實現
    1.6.5  模型訓練
    1.6.6  模型驗證
    1.6.7  模型改進
    1.6.8  模型運用
  1.7  應用實踐
  第1章習題
第2章  人工智慧與機器學習
  2.1  人工智慧簡介
    2.1.1  人工智慧+農業
    2.1.2  人工智慧+教育
    2.1.3  人工智慧+工業
    2.1.4  人工智慧+金融
  2.2  人工智慧前沿
  2.3  人工智慧簡史
  2.4  人工智慧流派
    2.4.1  符號主義學派
    2.4.2  聯結主義學派
    2.4.3  行為主義學派
  2.5  人工智慧基礎
    2.5.1  運籌學
    2.5.2  最優化控制
    2.5.3  交叉學科
    2.5.4  人工智慧和機器學習相關會議
  2.6  機器學習分類

    2.6.1  監督學習
    2.6.2  無監督學習
    2.6.3  強化學習
  2.7  機器學習基礎
    2.7.1  激活函數
    2.7.2  損失函數
    2.7.3  優化演算法
  2.8  應用實踐
  第2章習題
第3章  深度學習入門
  3.1  深度學習簡介
    3.1.1  深度學習與人工智慧
    3.1.2  深度學習與機器學習
    3.1.3  深度學習與表示學習
  3.2  深度神經網路
    3.2.1  深度神經網路構建
    3.2.2  深度神經網路實例
  3.3  深度卷積神經網路
  3.4  深度循環神經網路
  3.5  深度圖神經網路
    3.5.1  圖神經網路簡介
    3.5.2  圖神經網路聚合函數
    3.5.3  圖神經網路更新函數
    3.5.4  圖神經網路池化函數
  3.6  深度神經網路訓練
    3.6.1  模型訓練挑戰
    3.6.2  數據預處理
    3.6.3  參數初始化
    3.6.4  學習率調整
    3.6.5  梯度優化演算法
    3.6.6  超參數優化
    3.6.7  正則化技術
  3.7  應用實踐
    3.7.1  TensorFlow安裝
    3.7.2  TensorFlow基本框架
    3.7.3  TensorBoard
    3.7.4  scikit-learn
    3.7.5  Keras
  第3章習題
第4章  強化學習入門
  4.1  強化學習簡介
  4.2  馬爾可夫決策過程
  4.3  動態規劃方法
    4.3.1  策略函數
    4.3.2  獎勵函數
    4.3.3  累積回報
    4.3.4  狀態值函數
    4.3.5  狀態-動作值函數
    4.3.6  狀態-動作值函數與狀態值函數的關係
    4.3.7  Bellman方程

    4.3.8  策略迭代演算法
    4.3.9  值函數迭代演算法
  4.4  蒙特卡洛方法
    4.4.1  蒙特卡洛估計
    4.4.2  蒙特卡洛強化學習演算法偽代碼
  4.5  時序差分學習
    4.5.1  時序差分學習演算法
    4.5.2  時序差分學習演算法、動態規劃和蒙特卡洛演算法比較
    4.5.3  Q-learning
    4.5.4  SARSA
  4.6  策略梯度方法
  4.7  應用實踐
    4.7.1  強化學習的智能交易系統框架
    4.7.2  智能交易系統環境模型編程
  第4章習題
第5章  深度強化學習Q網路
  5.1  深度Q網路
    5.1.1  智能策略
    5.1.2  策略函數與Q表格
    5.1.3  策略函數與Q網路
  5.2  DQN演算法介紹
    5.2.1  經驗回放
    5.2.2  目標網路
  5.3  DQN演算法
  5.4  DoubleDQN
    5.4.1  DoubleDQN背景
    5.4.2  雙Q網路結構
    5.4.3  DoubleDQN演算法偽代碼
  5.5  DuelingDQN
    5.5.1  DuelingDQN演算法框架簡介
    5.5.2  DuelingDQN演算法核心思想
  5.6  DistributionalDQN
  5.7  DQN的其他改進
    5.7.1  優先順序經驗回放
    5.7.2  雜訊網路DQN
    5.7.3  多步(Multi-step)DQN
    5.7.4  分散式訓練
    5.7.5  DQN演算法改進
    5.7.6  DQN演算法總結
  5.8  應用實踐
    5.8.1  智能投資決策系統
    5.8.2  核心代碼解析
    5.8.3  模型訓練
    5.8.4  模型測試
  第5章習題
第6章  深度策略優化方法
  6.1  策略梯度方法簡介
    6.1.1  DQN的局限
    6.1.2  策略梯度方法分類
  6.2  隨機性策略梯度演算法

    6.2.1  軌跡數據
    6.2.2  目標函數
    6.2.3  梯度計算
    6.2.4  更新策略
  6.3  隨機性策略梯度定理
    6.3.1  隨機性策略梯度定理介紹
    6.3.2  隨機性策略梯度定理分析
  6.4  策略梯度優化幾種實現方法
    6.4.1  策略梯度優化理論
    6.4.2  完整軌跡的累積獎勵回報
    6.4.3  部分軌跡的累積獎勵回報
    6.4.4  常數基線函數
    6.4.5  基於狀態的基線函數
    6.4.6  基於狀態值函數的基線函數
    6.4.7  基於自舉方法的梯度估計
    6.4.8  基於優勢函數的策略梯度優化
  6.5  深度策略梯度優化演算法
  6.6  置信閾策略優化演算法
    6.6.1  置信閾策略優化演算法介紹
    6.6.2  重要性採樣
    6.6.3  置信閾策略優化演算法核心技巧
    6.6.4  置信閾策略優化演算法偽代碼
  6.7  近端策略優化演算法
    6.7.1  近端策略優化演算法介紹
    6.7.2  近端策略優化演算法核心技巧
    6.7.3  近端策略優化演算法(PPO2)偽代碼
  6.8  應用實踐
    6.8.1  模型參數
    6.8.2  模型訓練
    6.8.3  模型測試
  第6章習題
第7章  深度確定性策略梯度方法
  7.1  確定性策略梯度方法應用場景
  7.2  策略梯度方法比較
  7.3  確定性策略函數的深度神經網路表示
  7.4  確定性策略梯度定理
  7.5  深度確定性策略梯度演算法
    7.5.1  演算法核心介紹
    7.5.2  經驗回放
    7.5.3  目標網路
    7.5.4  參數軟更新
    7.5.5  深度確定性策略梯度演算法偽代碼
  7.6  孿生延遲確定性策略梯度演算法
    7.6.1  TD3演算法介紹
    7.6.2  TD3演算法的改進
    7.6.3  TD3演算法偽代碼
  7.7  應用實踐
    7.7.1  核心代碼解析
    7.7.2  模型訓練
    7.7.3  模型測試

  第7章習題
第8章  Actor-Critic演算法
  8.1  Actor-Critic簡介
  8.2  AC演算法
    8.2.1  AC演算法介紹
    8.2.2  AC演算法參數更新
    8.2.3  AC演算法偽代碼
  8.3  A2C演算法
    8.3.1  A2C演算法介紹
    8.3.2  優勢函數和基線函數
    8.3.3  A2C演算法偽代碼
  8.4  A3C演算法
    8.4.1  A3C演算法介紹
    8.4.2  A3C演算法的改進和優化
    8.4.3  A3C演算法偽代碼
  8.5  SAC演算法
    8.5.1  SAC演算法介紹
    8.5.2  智能體動作多樣性
    8.5.3  SAC演算法理論核心
    8.5.4  SAC演算法偽代碼
  8.6  應用實踐
    8.6.1  核心代碼解析
    8.6.2  模型訓練
    8.6.3  模型測試
  第8章習題
第9章  深度強化學習與規劃
  9.1  學習與規劃
  9.2  基於模型的深度強化學習
    9.2.1  深度強化學習模型分類
    9.2.2  深度強化學習中的學習模塊
    9.2.3  深度強化學習中的規劃模塊
  9.3  Dyna框架
    9.3.1  Dyna框架介紹
    9.3.2  Dyna框架的模型學習
  9.4  Dyna-Q演算法
    9.4.1  Dyna-Q演算法介紹
    9.4.2  Dyna-Q演算法偽代碼
  9.5  Dyna-Q改進
  9.6  Dyna-2框架
  9.7  應用實踐
    9.7.1  編程實踐模塊介紹
    9.7.2  Gym
    9.7.3  強化學習代碼庫
  第9章習題
第10章  深度強化學習展望
  10.1  深度強化學習背景
    10.1.1  源於學科交叉
    10.1.2  用於序貫決策
    10.1.3  強於深度學習
  10.2  深度強化學習簡史

    10.2.1  遊戲控制嶄露頭角
    10.2.2  AlphaGo風靡全球
    10.2.3  通用智能備受期待
  10.3  深度強化學習分類
    10.3.1  基於值函數和基於策略函數的深度強化學習
    10.3.2  基於模型和無模型的深度強化學習
    10.3.3  異策略和同策略學習
  10.4  深度強化學習面臨的挑戰
    10.4.1  樣本效率
    10.4.2  災難性遺忘
    10.4.3  虛實映射鴻溝
    10.4.4  有效表徵學習
    10.4.5  可拓展性與規模化
    10.4.6  延遲獎勵
    10.4.7  稀疏獎勵
    10.4.8  探索和利用
    10.4.9  複雜動態環境
  10.5  深度強化學習前沿
    10.5.1  多智能體深度強化學習
    10.5.2  深度逆向強化學習
    10.5.3  模仿學習
    10.5.4  行為克隆
    10.5.5  圖強化學習
  10.6  深度強化學習實踐
    10.6.1  深度強化學習建模框架
    10.6.2  深度強化學習模型的核心模塊
  第10章習題

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032