幫助中心 | 我的帳號 | 關於我們

強化學習與最優控制

  • 作者:(美)德梅萃·P.博塞克斯|責編:王一玲|譯者:李宇超
  • 出版社:清華大學
  • ISBN:9787302656449
  • 出版日期:2024/04/01
  • 裝幀:平裝
  • 頁數:271
人民幣:RMB 139 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書考慮大規模且具有挑戰性的多階段決策問題。原則上,此類問題可以通過動態規劃來求解。但是,對於許多實際問題,以該方法進行數值求解是難以實現的。本書探討的求解方法通過採用相關的近似,能夠給出滿足性能要求的次優策略。此類方法被統稱為強化學習。強化學習從最優控制和人工智慧這兩個領域的思想碰撞中獲益良多。本書的目的之一便是探討這兩個領域的共同邊界,從而為具有其中任一領域背景的研究者提供通向另一領域的橋樑。另外一個目的則是挑選出許多在實踐中證明有效的且具有堅實的理論與邏輯基礎的方法,並將它們有組織地整理起來。
    原著作者美國工程院院士Dimitri P.Bertsekas教授,有極高的學術造詣和學術聲譽,在學術專著和教材的寫作方面取得了公認的成績。

作者介紹
(美)德梅萃·P.博塞克斯|責編:王一玲|譯者:李宇超

目錄
第1章  精確動態規劃
  1.1  確定性動態規劃
    1.1.1  確定性問題
    1.1.2  動態規劃演算法
    1.1.3  值空間的近似
  1.2  隨機動態規劃
  1.3  例子、變形和簡化
    1.3.1  確定性最短路徑問題
    1.3.2  確定性離散優化問題
    1.3.3  含終止狀態的問題
    1.3.4  預報
    1.3.5  含不可控狀態組分的問題
    1.3.6  不完整的狀態信息和置信狀態
    1.3.7  線性二次型最優控制
    1.3.8  含未知參數的系統——自適應控制
  1.4  強化學習與最優控制——一些術語
  1.5  註釋和資源
第2章  值空間的近似
  2.1  強化學習中的近似方法
    2.1.1  值空間近似的一般問題
    2.1.2  離線與在線方法
    2.1.3  針對前瞻最小化的基於模型的簡化
    2.1.4  無模型的離線Q因子近似
    2.1.5  基於值空間近似的策略空間近似
    2.1.6  值空間的近似何時有效
  2.2  多步前瞻
    2.2.1  多步前瞻與滾動時域
    2.2.2  多步前瞻與確定性問題
  2.3  問題近似
    2.3.1  強制解耦
    2.3.2  隨機問題中的近似——確定性等價控制
  2.4  策略前展與策略改進原則
    2.4.1  針對確定性離散優化問題的在線策略前展
    2.4.2  隨機策略前展與蒙特卡洛樹搜索
    2.4.3  基於專家的策略前展
  2.5  針對確定性無窮空間問題的在線策略前展——優化類啟髮式方法
    2.5.1  模型預測控制
    2.5.2  目標管道與約束可控性條件
    2.5.3  模型預測控制的變形
  2.6  註釋與資源
第3章  參數化近似
  3.1  近似架構
    3.1.1  基於特徵的線性與非線性參數架構
    3.1.2  訓練線性與非線性架構
    3.1.3  增量梯度與牛頓法
  3.2  神經網路
    3.2.1  訓練神經網路
    3.2.2  多層與深度神經網路
  3.3  連續動態規劃近似
  3.4  Q因子參數化近似

  3.5  基於分類的策略空間參數化近似
  3.6  註釋與資源
第4章  無窮階段動態規劃
  4.1  無窮階段問題概論
  4.2  隨機最短路徑問題
  4.3  折扣問題
  4.4  半馬爾可夫折扣問題
  4.5  非同步分散式值迭代
  4.6  策略迭代
    4.6.1  精確策略迭代
    4.6.2  樂觀與多步前瞻策略迭代
    4.6.3  針對Q因子的策略迭代
  4.7  註釋和資源
  4.8  附錄:數學分析
    4.8.1  隨機最短路徑問題的相關證明
    4.8.2  折扣問題的相關證明
    4.8.3  精確與樂觀策略迭代的收斂性
第5章  無窮階段強化學習
  5.1  值空間近似——性能界
    5.1.1  有限前瞻
    5.1.2  策略前展
    5.1.3  近似策略迭代
  5.2  擬合值迭代
  5.3  採用參數化近似的基於模擬的策略迭代
    5.3.1  自主學習與執行–批評方法
    5.3.2  一種基於模型的變體
    5.3.3  一種無模型的變體
    5.3.4  實施參數化策略迭代的挑戰
    5.3.5  近似策略迭代的收斂問題——振蕩
  5.4  Q學習
  5.5  附加方法——時序差分
  5.6  精確與近似線性規劃
  5.7  策略空間近似
    5.7.1  通過費用優化執行訓練——策略梯度、交叉熵以及隨機搜索方法
    5.7.2  基於專家的監督學習
    5.7.3  近似策略迭代、策略前展與策略空間近似
  5.8  註釋和資源
  5.9  附錄:數學分析
    5.9.1  多步前瞻的性能界
    5.9.2  策略前展的性能界
    5.9.3  近似策略迭代的性能界
第6章  聚集
  6.1  包含代表狀態的聚集
    6.1.1  連續控制空間離散化
    6.1.2  連續狀態空間——部分可觀察馬爾可夫決策問題的離散化
  6.2  包含代表特徵的聚集
    6.2.1  硬聚集與誤差界
    6.2.2  採用特徵的聚集
  6.3  求解聚集問題的方法
    6.3.1  基於模擬的策略迭代

    6.3.2  基於模擬的值迭代
  6.4  包含神經網路的基於特徵的聚集
  6.5  偏心聚集
  6.6  註釋和資源
  6.7  附錄:數學分析
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032