幫助中心 | 我的帳號 | 關於我們

阿爾法零對最優模型預測自適應控制的啟示/信息技術和電氣工程學科國際知名教材中譯本系列

  • 作者:(美)德梅萃·P.博塞克斯|責編:王一玲|譯者:賈慶山//李岩
  • 出版社:清華大學
  • ISBN:9787302660361
  • 出版日期:2024/06/01
  • 裝幀:平裝
  • 頁數:161
人民幣:RMB 69 元      售價:
放入購物車
加入收藏夾

內容大鋼
    德梅萃·P.博塞克斯(Dimitri P.Bertsekas)教授是國際運籌優化與控制領域的著名學者,其系列經典教材被清華大學、麻省理工學院等國內外高校廣泛使用。本書構建了近似動態規劃和強化學習的新的理論框架,簡潔但雄心勃勃。這一框架以離線訓練和在線學習這兩類演算法為中心,彼此獨立又通過牛頓法有機融合。當今新一代人工智慧技術發展絢麗多彩,在看似紛繁複雜的數據與演算法表象之下,其實蘊藏著簡潔而美妙的規律。通過本書的學習,讀者將能體會經典優化控制理論在分析和理解當代強化學習演算法性能中的強大威力,更能領悟到以阿爾法零為代表的新一代演算法浪潮為經典理論提供的新的發展機遇。本書適合作為普通高等學校信息科學技術領域研究生、本科生高年級教材,也可供本領域科研人員自學參考。

作者介紹
(美)德梅萃·P.博塞克斯|責編:王一玲|譯者:賈慶山//李岩

目錄
第1章  阿爾法零、離線訓練和在線學習
  1.1  離線訓練和策略迭代
  1.2  在線學習與值空間近似——截斷滾動
  1.3  阿爾法零的經驗
  1.4  強化學習的一種新概念框架
  1.5  註釋與參考文獻
第2章  確定性和隨機的動態規劃
  2.1  無限時段上的最優控制
  2.2  值空間近似
  2.3  註釋與參考文獻
第3章  強化學習的抽象視角
  3.1  貝爾曼運算元
  3.2  值空間近似和牛頓法
  3.3  穩定域
  3.4  策略迭代、滾動和牛頓法
  3.5  在線對弈對於離線訓練過程有多敏感?
  3.6  何不直接訓練策略網路並在使用時摒棄在線對弈呢?
  3.7  多智能體問題和多智能體滾動
  3.8  在線簡化策略迭代
  3.9  例外情形
  3.10  註釋與參考文獻
第4章  線性二次型情形——例證
  4.1  最優解
  4.2  穩定線性策略的費用函數
  4.3  值迭代
  4.4  單步和多步前瞻——牛頓步的解釋
  4.5  靈敏度問題
  4.6  滾動和策略迭代
  4.7  截斷滾動——前瞻長度問題
  4.8  線性二次型問題中的例外行為
  4.9  註釋與參考文獻
第5章  自適應和模型預測控制
  5.1  具有未知參數的系統——魯棒和PID控制
  5.2  值空間近似、滾動和自適應控制
  5.3  值空間近似、滾動和模型預測控制
  5.4  末端費用近似——穩定性問題
  5.5  註釋與參考文獻
第6章  有限時段確定性問題——離散優化
  6.1  確定性離散空間有限時段問題
  6.2  一般離散優化問題
  6.3  值空間近似
  6.4  離散優化的滾動演算法
  6.5  採用多步前瞻的滾動——截斷滾動
  6.6  約束形式的滾動演算法
  6.7  使用部分可觀馬爾可夫決策問題模型滾動的自適應控制
  6.8  極小化極大控制的滾動
  6.9  小階段費用與長時段——連續時間滾動
  6.10  結語
附錄A  不動點問題的牛頓法
  A.1  可微不動點問題的牛頓法

  A.2  無須貝爾曼運算元可微性的牛頓法
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032