幫助中心 | 我的帳號 | 關於我們

控制系統與強化學習/工業自動化與智能化叢書

  • 作者:(美)肖恩·梅恩|責編:劉鋒//馮潤峰|譯者:王占山//王秋富//葛伊陽
  • 出版社:機械工業
  • ISBN:9787111775768
  • 出版日期:2025/04/01
  • 裝幀:平裝
  • 頁數:420
人民幣:RMB 149 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書旨在以具有微積分和矩陣代數背景的學生可以理解的方式,解釋強化學習和優化控制背後的科學。本書的一個獨特重點是演算法設計,以獲得學習演算法的快收斂速度,以及對強化學習有時失敗的原因的洞察。一開始就避開了高級隨機過程理論,用更直觀的確定性探測來代替學習的隨機探索。一旦理解了這些思想,掌握植根于隨機控制的技術就不難了。這些主題在本書的第二部分有所涉及,從馬爾科夫鏈理論開始,以對強化學習的行為者批評方法的全新審視結束。

作者介紹
(美)肖恩·梅恩|責編:劉鋒//馮潤峰|譯者:王占山//王秋富//葛伊陽

目錄
譯者序
前言
  第1章  引言
    1.1  本書涵蓋的內容
    1.2  未深入探討的內容
    1.3  參考資料
第一部分  無雜訊情況下的基礎知識
  第2章  控制理論概述
    2.1  身邊的控制問題
    2.2  該怎麼辦
    2.3  狀態空間模型
      2.3.1  充分統計量與非線性
      2.3.2  狀態增廣和學習
      2.3.3  線性狀態空間模型
      2.3.4  向牛頓和萊布尼茨致敬
    2.4  穩定性和性能
      2.4.1  總成本
      2.4.2  平衡點的穩定性
      2.4.3  李雅普諾夫函數
      2.4.4  技術證明
      2.4.5  連續時間域的幾何
      2.4.6  線性狀態空間模型
    2.5  展望未來:從控制理論到強化學習
      2.5.1  演員-評論家
      2.5.2  時間差分
      2.5.3  老虎機與探索
    2.6  如何忽略雜訊
    2.7  示例
      2.7.1  華爾街
      2.7.2  山地車
      2.7.3  磁球
      2.7.4  倒立擺
      2.7.5  Pendubot和Acrobot
      2.7.6  合作賽艇
    2.8  習題
    2.9  注記
  第3章  最優控制
    3.1  總成本的價值函數
    3.2  貝爾曼方程
      3.2.1  值迭代
      3.2.2  策略改進
      3.2.3  佩龍-弗羅貝尼烏斯定理:簡單介紹
    3.3  各種變形
      3.3.1  折扣成本
      3.3.2  最短路徑問題
      3.3.3  有限時域
      3.3.4  模型預測控制
    3.4  逆動態規劃
    3.5  貝爾曼方程是一個線性規劃
    3.6  線性二次調節器

  ……
第二部分  強化學習與隨機控制
附錄
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032