幫助中心 | 我的帳號 | 關於我們

分佈強化學習/智能科學與技術叢書

  • 作者:(加)馬克·G.貝勒馬爾//(美)威爾·達布尼//(英)馬克·羅蘭|責編:曲熠//陳佳媛|譯者:周慶國//王金強//周睿//雍賓賓
  • 出版社:機械工業
  • ISBN:9787111789642
  • 出版日期:2025/10/01
  • 裝幀:平裝
  • 頁數:242
人民幣:RMB 99 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書是關於分散式強化學習的全面指南,為從概率視角思考決策問題提供了新的數學框架。本書主要介紹分散式強化學習的關鍵概念及應用,對於重要的結果均給出了數學證明,從而說明分散式強化學習有能力解釋在人機交互環境中產生的許多複雜且有趣的現象。讀者將了解一系列演算法和數學理論的發展過程,在這些過程中依次對隨機回報進行特徵描述、計算和估計,最後基於此做出決策。本書就實際問題給出了有效的解決思路,適合機器人學、計算神經科學、心理學、金融(風險管理)等不同領域的技術人員參考,也適合高校電腦、人工智慧等相關專業的學生閱讀。

作者介紹
(加)馬克·G.貝勒馬爾//(美)威爾·達布尼//(英)馬克·羅蘭|責編:曲熠//陳佳媛|譯者:周慶國//王金強//周睿//雍賓賓

目錄
譯者序
前言
符號表
第1章  導論
  1.1  為什麼是分佈強化學習
  1.2  示例:Kuhn撲克
  1.3  分佈強化學習有何不同
  1.4  本書的讀者對象和結構
  1.5  參考文獻備註
第2章  回報的分佈
  2.1  隨機變數及其概率分佈
  2.2  馬爾可夫決策過程
  2.3  彈球模型
  2.4  回報
  2.5  貝爾曼方程
  2.6  隨機軌跡的性質
  2.7  隨機變數貝爾曼方程
  2.8  從隨機變數到概率分佈
  2.9  回報分佈的替代概念
  2.10  技術備註
  2.11  參考文獻備註
  2.12  練習
第3章  學習回報分佈
  3.1  蒙特卡羅方法
  3.2  增量學習
  3.3  時序差分學習
  3.4  從值到概率
  3.5  投影過程
  3.6  分類時序差分學習
  3.7  學習控制
  3.8  進一步的考慮
  3.9  技術備註
  3.10  參考文獻備註
  3.11  練習
第4章  運算元和度量指標
  4.1  貝爾曼運算元
  4.2  收縮映射
  4.3  分佈貝爾曼運算元
  4.4  回報函數的Wasserstein距離
  4.5  lp概率度量和Cramer距離
  4.6  收縮性的充分條件
  4.7  域問題
  4.8  回報函數的弱收斂性
  4.9  隨機變數貝爾曼運算元
  4.10  技術備註
  4.11  參考文獻備註
  4.12  練習
第5章  分佈動態規劃
  5.1  計算模型
  5.2  回報-分佈函數的表示

  5.3  經驗表示
  5.4  正態表示
  5.5  固定大小的經驗表示
  5.6  投影步驟
  5.7  分佈動態規劃
  5.8  擴散引起的誤差
  5.9  分佈動態規劃的收斂性
  5.10  分佈近似的質量
  5.11  設計分佈動態規劃演算法
  5.12  技術備註
  5.13  參考文獻備註
  5.14  練習
第6章  增量演算法
  6.1  計算與統計估計
  6.2  從運算元到增量演算法
  6.3  分類時序差分學習
  6.4  分位數時序差分學習
  6.5  理論分析的演算法模板
  6.6  合理的步長
  6.7  收斂性分析概述
  6.8  增量演算法的收斂性
  6.9  時序差分學習的收斂性
  6.10  分類時序差分學習的收斂性
  6.11  技術備註
  6.12  參考文獻備註
  6.13  練習
第7章  控制
  7.1  風險中性控制
  7.2  價值迭代和Q-學習
  7.3  分佈值迭代
  7.4  分佈最優運算元的動力學
  7.5  存在多個最優策略時的動態分析
  7.6  風險和風險敏感控制
  7.7  風險敏感控制面臨的挑戰
  7.8  條件風險價值
  7.9  技術備註
  7.10  參考文獻備註
  7.11  練習
第8章  統計泛函
  8.1  統計泛函概述
  8.2  矩
  8.3  貝爾曼封閉性
  8.4  統計泛函動態規劃
  8.5  與分佈動態規劃的關係
  8.6  期望分位數動態規劃
  8.7  統計泛函的無限集合
  8.8  矩時序差分學習
  8.9  技術備註
  8.10  參考文獻備註
  8.11  練習

第9章  線性函數近似
  9.1  函數近似和混疊
  9.2  最優線性價值函數近似
  9.3  用於線性價值函數近似的投影貝爾曼運算元
  9.4  半梯度時序差分學習
  9.5  分佈強化學習的半梯度演算法
  9.6  基於帶符號分佈的演算法
  9.7  帶符號演算法的收斂性
  9.8  技術備註
  9.9  參考文獻備註
  9.10  練習
第10章  深度強化學習
  10.1  深度神經網路學習
  10.2  基於深度神經網路的分佈強化學習
  10.3  隱式參數化
  10.4  深度強化學習智能體評估
  10.5  預測如何塑造狀態表示
  10.6  技術備註
  10.7  參考文獻備註
  10.8  練習
第11章  兩個應用和一個結論
  11.1  多智能體強化學習
  11.2  計算神經科學
  11.3  結論
  11.4  參考文獻備註
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032