幫助中心 | 我的帳號 | 關於我們

強化學習基礎原理與應用

  • 作者:編者:張百珂|責編:魏瑩
  • 出版社:清華大學
  • ISBN:9787302685913
  • 出版日期:2025/05/01
  • 裝幀:平裝
  • 頁數:394
人民幣:RMB 99 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書循序漸進地講解了使用Python語言實現強化學習的核心演算法開發的知識,內容涵蓋了數據處理、演算法、大模型等知識,並通過具體實例的實現過程演練了各個知識點的使用方法和使用流程。《強化學習基礎、原理與應用》共分為17章,主要內容包括強化學習基礎、馬爾可夫決策過程、蒙特卡洛方法、Q-learning與貝爾曼方程、時序差分學習和SARSA演算法、DQN演算法、DDQN演算法、競爭DQN演算法、REINFORCE演算法、Actor-Critic演算法、PPO演算法、TRPO演算法、連續動作空間的強化學習、值分散式演算法、基於模型的強化學習、多智能體強化學習實戰:Predator-Prey遊戲及自動駕駛系統。本書內容簡潔而不失技術深度,以極簡的文字介紹了複雜的案例,易於閱讀和理解。
    本書適用於已經了解Python語言基礎語法的讀者,想進一步學習強化學習、機器學習、深度學習及相關技術的讀者,還可作為大專院校相關專業的師生用書和培訓機構的教材使用。

作者介紹
編者:張百珂|責編:魏瑩

目錄
第1章  強化學習基礎
  1.1  強化學習概述
    1.1.1  強化學習的背景
    1.1.2  強化學習的核心特點
    1.1.3  強化學習與其他機器學習方法的區別
  1.2  強化學習的應用領域
    1.2.1  機器人控制與路徑規劃
    1.2.2  遊戲與虛擬環境
    1.2.3  金融與投資決策
    1.2.4  自動駕駛與智能交通
    1.2.5  自然語言處理
  1.3  強化學習中的常用概念
    1.3.1  智能體、環境與交互
    1.3.2  獎勵與回報的概念
    1.3.3  馬爾可夫性質與馬爾可夫決策過程
    1.3.4  策略與價值函數
第2章  馬爾可夫決策過程
  2.1  馬爾可夫決策過程的定義
    2.1.1  馬爾可夫決策過程的核心思想
    2.1.2  馬爾可夫決策過程的形式化定義
  2.2  馬爾可夫決策過程的組成要素
    2.2.1  狀態空間與狀態的定義
    2.2.2  行動空間與行動的定義
    2.2.3  獎勵函數的作用與定義
    2.2.4  轉移概率函數的意義與定義
    2.2.5  實例分析:構建一個簡單的MDP
  2.3  值函數與策略
    2.3.1  值函數與策略的定義
    2.3.2  值函數與策略的用法舉例
  2.4  貝爾曼方程
    2.4.1  貝爾曼預測方程與策略評估
    2.4.2  貝爾曼最優性方程與值函數之間的關係
    2.4.3  貝爾曼最優性方程與策略改進
    2.4.4  動態規劃與貝爾曼方程的關係
    2.4.5  貝爾曼方程在強化學習中的應用
第3章  蒙特卡洛方法
  3.1  蒙特卡洛預測
    3.1.1  蒙特卡洛預測的核心思想
    3.1.2  蒙特卡洛預測的步驟與流程
    3.1.3  蒙特卡洛預測的樣本更新與更新規則
  3.2  蒙特卡洛控制
    3.2.1  蒙特卡洛控制的目標與意義
    3.2.2  蒙特卡洛控制的策略評估與改進
    3.2.3  蒙特卡洛控制的更新規則與收斂性
  3.3  探索與策略改進
    3.3.1  探索與利用的平衡再探討
    3.3.2  貪婪策略與ε-貪婪策略的比較
    3.3.3  改進探索策略的方法
    3.3.4  探索策略對蒙特卡洛方法的影響
第4章  Q-learning與貝爾曼方程

  4.1  Q-learning演算法的原理
    4.1.1  Q-learning的動作值函數
    4.1.2  Q-learning演算法中的貪婪策略與探索策略
    4.1.3  Q-learning演算法的收斂性與收斂條件
  4.2  貝爾曼方程在Q-learning演算法中的應用
    4.2.1  Q-learning演算法與貝爾曼最優性方程的關係
    4.2.2  貝爾曼方程的迭代計算與收斂
    4.2.3  Q-learning演算法中貝爾曼方程的實際應用
  4.3  強化學習中的Q-learning
    4.3.1  ε-貪婪策略與探索的關係
    4.3.2  Q-learning中探索策略的變化與優化
    4.3.3  探索策略對Q-learning性能的影響分析
    4.3.4  使用Q-learning尋找某股票的買賣點
第5章  時序差分學習和SARSA演算法
  5.1  時序差分預測
    5.1.1  時序差分預測的核心思想
    5.1.2  時序差分預測的基本公式
    5.1.3  時序差分預測與狀態值函數
    5.1.4  時序差分預測的實例分析
  5.2  SARSA演算法
    5.2.1  SARSA演算法的核心原理和步驟
    5.2.2  SARSA演算法的更新規則
    5.2.3  SARSA演算法的收斂性與收斂條件
    5.2.4  SARSA演算法實例分析
  5.3  Q-learning演算法的時序差分更新
    5.3.1  時序差分學習與Q-learning的結合
    5.3.2  Q-learning的時序差分更新演算法
第6章  DQN演算法
  6.1  引言與背景
  6.2  DQN演算法的基本原理
  6.3  DQN的網路結構與訓練過程
    6.3.1  DQN的神經網路結構
    6.3.2  DQN演算法的訓練過程
    6.3.3  經驗回放
    6.3.4  目標網路
  6.4  DQN演算法的優化與改進
    6.4.1  DDQN
    6.4.2  競爭DQN
    6.4.3  優先經驗回放
  6.5  基於DQN演算法的自動駕駛程序
    6.5.1  項目介紹
    6.5.2  具體實現
第7章  DDQN演算法
  7.1  DDQN對標準DQN的改進
  7.2  雙重深度Q網路的優勢
  7.3  《超級馬里奧》遊戲的DDQN強化學習實戰
    7.3.1  項目介紹
    7.3.2  gym_super_mario_bros庫的介紹
    7.3.3  環境預處理
    7.3.4  創建DDQN模型

    7.3.5  模型訓練和測試
第8章  競爭DQN演算法
  8.1  競爭DQN演算法原理
    8.1.1  競爭DQN演算法的動機和核心思想
    8.1.2  競爭DQN網路架構
  8.2  競爭DQN的優勢與改進
    8.2.1  分離狀態價值和動作優勢的好處
    8.2.2  優化訓練效率與穩定性
    8.2.3  解決過度估計問題的潛力
  8.3  股票交易策略系統
    8.3.1  項目介紹
    8.3.2  數據準備
    8.3.3  數據拆分與時間序列
    8.3.4  Environment(環境)
    8.3.5  DQN演算法實現
    8.3.6  DDQN演算法的實現
    8.3.7  競爭DQN演算法的實現
第9章  REINFORCE演算法
  9.1  策略梯度介紹
    9.1.1  策略梯度的重要概念和特點
    9.1.2  策略梯度定理的數學推導
  9.2  REINFORCE演算法基礎
    9.2.1  REINFORCE演算法的基本原理
    9.2.2  REINFORCE演算法的更新規則
    9.2.3  基線函數與REINFORCE演算法的優化
第10章  Actor-Critic演算法
  10.1  Actor-Critic演算法的介紹與原理
    10.1.1  強化學習中的策略梯度方法
    10.1.2  Actor-Critic演算法框架概述
    10.1.3  Actor-Critic演算法實戰:手推購物車遊戲
  10.2  A2C演算法
    10.2.1  A2C演算法的基本思想
    10.2.2  優勢函數的引入
    10.2.3  A2C演算法的訓練流程
    10.2.4  A2C演算法實戰
  10.3  SAC演算法
    10.3.1  SAC演算法的核心思想
    10.3.2  熵的作用及其在SAC演算法中的應用
    10.3.3  SAC演算法實戰
  10.4  A3C演算法
    10.4.1  A3C演算法的核心思想
    10.4.2  A3C演算法的訓練過程
    10.4.3  A3C演算法實戰
第11章  PPO演算法
  11.1  PPO演算法的背景與概述
    11.1.1  強化學習中的策略優化方法
    11.1.2  PPO演算法的優點與應用領域
  11.2  PPO演算法的核心原理
    11.2.1  PPO演算法的基本思想
    11.2.2  目標函數與優化策略的關係

    11.2.3  PPO演算法中的策略梯度計算
  11.3  PPO演算法的實現與調參
    11.3.1  策略網路結構的設計
    11.3.2  超參數的選擇與調整
  11.4  PPO演算法的變種與改進
    11.4.1  PPO-Clip演算法
    11.4.2  PPO-Penalty演算法
    11.4.3  PPO2演算法
第12章  TRPO演算法
  12.1  TRPO演算法的意義
  12.2  TRPO演算法的核心原理
    12.2.1  TRPO演算法的步驟
    12.2.2  信任區域的概念與引入
    12.2.3  目標函數與約束條件的構建
    12.2.4  TRPO演算法中的策略梯度計算
  12.3  TRPO演算法的變種與改進
    12.3.1  TRPO-Clip演算法
    12.3.2  TRPO-Penalty演算法
  12.4  TRPO演算法優化實戰:基於矩陣低秩分解的TRPO
    12.4.1  優化策略:NN-TRPO和TRLRPO
    12.4.2  經驗數據管理和狀態空間離散化
    12.4.3  定義環境
    12.4.4  創建強化學習模型
    12.4.5  創建Agent
    12.4.6  評估TRPO演算法在Acrobot 環境中的性能
    12.4.7  評估TRPO演算法在MountainCarContinuous-v0環境中的性能
    12.4.8  評估TRPO演算法在CustomPendulumEnv環境中的性能
    12.4.9  性能可視化
第13章  連續動作空間的強化學習
  13.1  連續動作空間強化學習基礎
    13.1.1  連續動作空間介紹
    13.1.2  動作幅度問題與採樣效率問題
    13.1.3  連續動作空間中的探索問題
  13.2  DDPG演算法
    13.2.1  DDPG演算法的特點
    13.2.2  DDPG演算法在連續動作空間中的優勢
    13.2.3  DDPG演算法的實現步驟與網路結構
    13.2.4  DDPG演算法中的經驗回放與探索策略
  13.3  DDPG演算法綜合實戰:基於強化學習的股票交易策略
    13.3.1  項目介紹
    13.3.2  準備開發環境
    13.3.3  下載數據
    13.3.4  數據預處理
    13.3.5  構建環境
    13.3.6  實現深度強化學習演算法
    13.3.7  性能回測
第14章  值分散式演算法
  14.1  值分散式演算法基礎
    14.1.1  值分散式演算法的背景與優勢
    14.1.2  值分散式演算法的基本概念

    14.1.3  強化學習中的值函數表示問題
    14.1.4  常用的值分散式演算法
  14.2  C51演算法
    14.2.1  C51演算法的基本原理
    14.2.2  C51演算法的網路架構
    14.2.3  C51演算法的訓練流程
    14.2.4  C51演算法的試驗與性能評估
    14.2.5  使用TF-Agents訓練C51代理
  14.3  QR-DQN演算法
    14.3.1  QR-DQN演算法的核心思想
    14.3.2  QR-DQN演算法的實現步驟
    14.3.3  QR-DQN演算法實戰
  14.4  FPQF演算法
    14.4.1  FPQF演算法的核心思想
    14.4.2  FPQF演算法的實現步驟
    14.4.3  FPQF演算法實戰
  14.5  IQN演算法
    14.5.1  IQN演算法的原理與背景
    14.5.2  IQN演算法實戰
第15章  基於模型的強化學習
  15.1  基於模型的強化學習基礎
    15.1.1  基於模型的強化學習簡介
    15.1.2  模型的種類與構建方法
    15.1.3  基於模型的強化學習演算法
  15.2  模型預測控制
    15.2.1  模型預測控制介紹
    15.2.2  模型預測控制實戰
  15.3  蒙特卡洛樹搜索演算法
    15.3.1  MCTS演算法介紹
    15.3.2  MCTS演算法實戰
  15.4  MBPO演算法
    15.4.1  MBPO演算法介紹
    15.4.2  MBPO演算法實戰
  15.5  PlaNet演算法
    15.5.1  PlaNet演算法介紹
    15.5.2  PlaNet演算法實戰
第16章  多智能體強化學習實戰:Predator-Prey遊戲
  16.1  Predator-Prey遊戲介紹
  16.2  背景介紹
  16.3  功能模塊介紹
  16.4  環境準備
    16.4.1  安裝OpenAI gymnasium
    16.4.2  導入庫
  16.5  捕食者-獵物(Predator-Prey)的環境
    16.5.1  定義自定義強化學習環境類
    16.5.2  定義自定義強化學習環境類
    16.5.3  環境重置
    16.5.4  計算捕食者和獵物的獎勵
    16.5.5  判斷回合是否結束
    16.5.6  檢查動作的合法性

    16.5.7  記錄和獲取狀態歷史
    16.5.8  實現step方法
    16.5.9  生成視圖幀
    16.5.10  渲染環境的視圖
  16.6  第二個環境
  16.7  隨機智能體
    16.7.1  應用場景
    16.7.2  實現隨機智能體
  16.8  DDPG演算法的實現
    16.8.1  信息存儲
    16.8.2  實現Actor模型
    16.8.3  實現Critic模型
    16.8.4  實現DDPG智能體
  16.9  訓練模型
    16.9.1  環境初始化
    16.9.2  創建智能體
    16.9.3  訓練循環
    16.9.4  保存模型
    16.9.5  訓練結果可視化
第17章  自動駕駛系統
  17.1  自動駕駛背景介紹
  17.2  項目介紹
    17.2.1  功能介紹
    17.2.2  模塊結構
  17.3  環境準備
  17.4  配置文件
  17.5  準備數據文件
    17.5.1  Carla數據處理與轉換
    17.5.2  載入、處理數據
    17.5.3  收集、處理數據
    17.5.4  創建數據集
  17.6  深度學習模型
    17.6.1  編碼器
    17.6.2  變分自編碼器
    17.6.3  定義強化學習模型
  17.7  強化學習
    17.7.1  強化學習工具類的實現
    17.7.2  經驗回放存儲的實現
    17.7.3  深度強化學習智能體的實現
    17.7.4  使用SAC演算法的強化學習代理的實現
    17.7.5  實現DDPG用於強化學習
  17.8  調用處理
    17.8.1  生成訓練數據
    17.8.2  訓練模型
    17.8.3  收集Carla環境中的專家駕駛數據
    17.8.4  訓練自動駕駛的強化學習代理
    17.8.5  訓練DDPG智能體執行自動駕駛任務
    17.8.6  評估自動駕駛模型的性能
  17.9  調試運行

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032