幫助中心 | 我的帳號 | 關於我們

動態規劃與最優控制--近似動態規劃(第Ⅱ卷)/信息技術和電氣工程學科國際知名教材中譯本系列

  • 作者:(美)德梅萃·P.博塞克斯|責編:王一玲//李曄|譯者:賈慶山
  • 出版社:清華大學
  • ISBN:9787302561460
  • 出版日期:2021/02/01
  • 裝幀:平裝
  • 頁數:491
人民幣:RMB 129 元      售價:
放入購物車
加入收藏夾

內容大鋼
    《動態規劃與最優控制--近似動態規劃(第Ⅱ卷)》系統性介紹動態規劃,特別是近似動態規劃,包括折扣問題的理論與計算方法、隨機最短路問題、無折扣問題、平均費用問題、折扣與無折扣問題的近似動態規劃等。

作者介紹
(美)德梅萃·P.博塞克斯|責編:王一玲//李曄|譯者:賈慶山
    德梅萃·P.博塞克斯(Dimitri Bertsekas)曾在希臘國立雅典技術大學學習機械與電機工程,之後從麻省理工學院獲得系統科學博士學位。曾先後在斯坦福大學工程與經濟系統系和伊利諾伊大學香檳分校的電機工程系任教。1979年以來,他一直在麻省理工學院電機工程與電腦科學系任教,現任麥卡菲工程教授。其研究涉及多個領域,包括優化、控制、大規模計算和數據通信網路,並與其教學和著書工作聯繫緊密。他已撰寫14本著作以及眾多論文,其中數本著作在麻省理工學院被用作教材。他與動態規劃之緣始於博士論文的研究,並通過學術論文、多本教材和學術專著一直延續至今。     Bertsekas 教授因其著作《神經元動態規劃》(與John Tsitsiklis合著)榮獲1997年INFORMS 授予的運籌學與電腦科學交叉領域的傑出研究成果獎、2000年希臘運籌學國家獎、2001年美國控制會議John R.Ragazzini獎以及2009年INFORMS Expository寫作獎。2001年,他因為「基礎性研究、實踐並教育優化/控制理論,特別是在數據通信網路中的應用」當選美國工程院院士。     Bertsekas博士近些年出版的書包括《概率導論》第二版(2008年與John Tsitsiklis合著)和《凸優化理論》(2009),均由雅典娜科學出版社出版。

目錄
第1章  折扣問題——理論
  1.1  總費用最小化——介紹
    1.1.1  有限階段動態規劃演算法
    1.1.2  符號簡寫與單調性
    1.1.3  無窮階段結果的預覽
    1.1.4  隨機的和依賴歷史的策略
  1.2  折扣問題——各階段費用有界
  1.3  調度與多柄老虎機問題
    1.3.1  項目的指標
    1.3.2  項目逐個退出策略
  1.4  折扣連續時間問題
  1.5  壓縮映射的作用
    1.5.1  極大模壓縮
    1.5.2  折扣問題——單階段費用無界
  1.6  折扣動態規劃的一般形式
    1.6.1  壓縮與單調性的基本結論
    1.6.2  折扣動態博弈
  1.7  註釋、參考文獻及習題
  習題
第2章  折扣問題——計算方法
  2.1  馬爾可夫決策問題
  2.2  值迭代
    2.2.1  值迭代的單調誤差界
    2.2.2  值迭代的變形
    2.2.3  Q-學習
  2.3  策略迭代
    2.3.1  針對費用的策略迭代
    2.3.2  Q-因子的策略迭代
    2.3.3  樂觀策略迭代
    2.3.4  有限前瞻策略和滾動
  2.4  線性規劃方法
  2.5  一般折扣問題的方法
    2.5.1  採用近似的有限前瞻策略
    2.5.2  推廣的值迭代
    2.5.3  近似值迭代
    2.5.4  推廣的策略迭代
    2.5.5  推廣的樂觀策略迭代
    2.5.6  近似策略迭代
    2.5.7  數學規劃
  2.6  非同步方法
    2.6.1  非同步值迭代
    2.6.2  非同步策略迭代
    2.6.3  具有均一不動點的策略迭代
  2.7  註釋、資源和習題
  習題
第3章  隨機最短路問題
  3.1  問題建模
  3.2  主要結論
  3.3  基本壓縮性質
  3.4  值迭代

    3.4.1  有限步終止的條件
    3.4.2  非同步值迭代
  3.5  策略迭代
    3.5.1  樂觀策略迭代
    3.5.2  近似策略迭代
    3.5.3  具有不合適策略的策略迭代
    3.5.4  具有均一不動點的非同步策略迭代
  3.6  可數狀態問題
  3.7  註釋、資源和習題
  習題
第4章  無折扣問題
  4.1  每階段的費用無界
    4.1.1  主要結論
    4.1.2  值迭代
    4.1.3  其他計算方法
  4.2  線性系統和二次費用
  4.3  庫存控制
  4.4  最優停止
  4.5  最優博弈策略
  4.6  連續時間問題——排隊的控制
  4.7  非平穩和周期性問題
  4.8  註釋、資源和習題
  習題
第5章  每階段平均費用問題
  5.1  有限空間平均費用模型
    5.1.1  與折扣費用問題的關係
    5.1.2  Blackwell 最優策略
    5.1.3  最優性條件
  5.2  所有初始狀態的平均費用相等的條件
  5.3  值迭代
    5.3.1  單鏈值迭代
    5.3.2  多鏈值迭代
  5.4  策略迭代
    5.4.1  單鏈策略迭代
    5.4.2  多鏈策略迭代
  5.5  線性規劃
  5.6  無窮空間平均費用模型
    5.6.1  最優性的充分條件
    5.6.2  有限狀態空間和無限控制空間
    5.6.3  可數狀態——消失的折扣方法
    5.6.4  可數狀態——壓縮方法
    5.6.5  具有二次費用的線性系統
  5.7  註釋、資源和習題
  習題
第6章  近似動態規劃:折扣模型
  6.1  基於模擬的費用近似的一般性問題
    6.1.1  近似結構
    6.1.2  基於模擬的近似策略迭代
    6.1.3  直接和間接近似
    6.1.4  蒙特卡羅模擬

    6.1.5  簡化
  6.2  直接策略評價——梯度法
  6.3  策略評價的投影方程方法
    6.3.1  投影貝爾曼方程
    6.3.2  投影方程的矩陣形式
    6.3.3  基於模擬的估計方法
    6.3.4  LSTD、LSPE 和TD(0) 方法
    6.3.5  樂觀版本
    6.3.6  多步基於模擬的方法
    6.3.7  提要
  6.4  策略迭代問題
    6.4.1  基於幾何採樣的搜索增強
    6.4.2  基於離線策略方法的搜索增強
    6.4.3  策略振蕩——震顫
  6.5  聚集方法
    6.5.1  基於聚集問題的費用近似
    6.5.2  通過增廣問題的費用近似
    6.5.3  多步聚集
    6.5.4  非同步分佈聚集
  6.6  Q-學習
    6.6.1  Q-學習:隨機值迭代演算法
    6.6.2  Q-學習和策略迭代
    6.6.3  Q-因子近似和投影方程
    6.6.4  最優停止問題的Q-學習
    6.6.5  Q-學習和聚集
    6.6.6  有限階段Q-學習
  6.7  註釋、資源和習題
  習題
第7章  近似動態規劃:無折扣模型及推廣
  7.1  隨機最短路問題
  7.2  平均費用問題
    7.2.1  近似策略評價
    7.2.2  近似策略迭代
    7.2.3  平均費用問題的Q-學習
  7.3  一般問題和蒙特卡羅線性代數
    7.3.1  投影方程
    7.3.2  矩陣逆合迭代方法
    7.3.3  多步方法
    7.3.4  最優停止的Q-學習的推廣
    7.3.5  方程誤差方法
    7.3.6  傾斜投影
    7.3.7  推廣聚集
    7.3.8  奇異線性系統的確定性方法
    7.3.9  奇異線性系統的隨機方法
  7.4  在策略空間的近似
    7.4.1  梯度公式
    7.4.2  通過模擬計算梯度
    7.4.3  梯度評價的關鍵特徵
    7.4.4  策略和值空間的近似
  7.5  註釋、資源和習題

  習題
附錄A  動態規劃中的測度論問題
  A.1  兩階段例子
  A.2  可測問題的解決方法
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032