幫助中心 | 我的帳號 | 關於我們

深度強化學習(學術前沿與實戰應用)/智能科學與技術叢書

  • 作者:編者:劉馳//王占健//戴子彭//馬曉鑫//朴成哲等|責編:姚蕾
  • 出版社:機械工業
  • ISBN:9787111646648
  • 出版日期:2020/03/01
  • 裝幀:平裝
  • 頁數:377
人民幣:RMB 99 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書共分為四篇,即深度強化學習、多智能體深度強化學習、多任務深度強化學習和深度強化學習的應用。由淺入深、通俗易懂,涵蓋經典演算法和近幾年的前沿技術進展。特別是書中詳細介紹了每一種代表性演算法的代碼原型實現,旨在理論與實踐相結合,讓讀者學有所得、學有所用。
    第一篇(包含第1?3章)主要講解深度強化學習基礎,側重於單智能體強化學習演算法,相對簡單,有助於初級讀者理解,同時涵蓋了近幾年的經典演算法和一些前沿的研究成果。
    第二篇(包含第4?5章)主要側重於對多智能體深度強化學習的講解,從多智能體強化學習基本概念到相關演算法的講解和分析,以多個極具代表性的演算法為例帶領讀者逐步學習多智能體訓練及控制的理論與方法。同時,還介紹了多智能體強化學習領域一些前沿學術成果。
    第三篇(包含第6?7章)擴展到多任務場景,稱為多任務深度強化學習。首先介紹了多任務強化學習的基本概念和相關基礎知識,隨後講解了部分經典的多任務深度強化學習演算法。
    第四篇(包含第8?11章)主要講解深度強化學習的實際應用,涉及遊戲、機器人控制、電腦視覺和自然語言處理四大領域。通過領域應用中思想和方法的講解,培養讀者跨領域解決實際問題的能力,以幫助讀者熟練掌握和使用深度強化學習這一強大的方法來解決和優化實際工程領域中的問題。

作者介紹
編者:劉馳//王占健//戴子彭//馬曉鑫//朴成哲等|責編:姚蕾
    劉馳,教授、博士生導師、北京理工大學軟體學院副院長。先後入選2015年度國家人社部「高層次留學人才回國資助計劃」、中國科協青年人才托舉工程、中國電子學會優秀科技工作者和第八批陝西省百人計劃(短期)。分別于清華大學和英國帝國理工學院獲得學士和博士學位,后在德國電信研究院(柏林)、美國IBM T.J.Watson研究中心和IBM中國研究院任博士后研究員和研究主管。主要研究方向是綠色物聯網大數據高效傳輸與處理技術。發表高水平SCI/EI論文80余篇,授權國內外發明專利7項,編著中英文書籍8本。主持了國家自然科學基金、工信部2013年電子商務集成創新試點工程等20余個省部級重點項目,現任中國自動化學會大數據專委會委員、中國工程院中國信息與電子工程科技發展戰略研究中心特聘專家(電腦應用領域)等。

目錄
前言
致謝
數學符號
第一篇 深度強化學習
  第1章  深度強化學習基礎
    1.1  強化學習
      1.1.1  強化學習的發展歷史
      1.1.2  強化學習簡介
      1.1.3  深度強化學習簡介
    1.2  馬爾可夫屬性和決策過程
      1.2.1  馬爾可夫屬性
      1.2.2  馬爾可夫決策過程
    1.3  強化學習he心概念
      1.3.1  值函數
      1.3.2  動態規劃
      1.3.3  時間(序)差分
      1.3.4  策略梯度
      1.3.5  actor-critic方法
    1.4  Q-learning
      1.4.1  Q-learning簡介
      1.4.2  演算法
      1.4.3  相關變數及影響
      1.4.4  實現方法
  第2章  深度強化學習演算法
    2.1  基於值的深度強化學習演算法
      2.1.1  深度Q網路
      2.1.2  深度雙Q網路
      2.1.3  競爭網路架構
      2.1.4  平均值DQN
      2.1.5  多DQN變種結合體:Rainbow
      2.1.6  基於動作排除的DQN
    2.2  基於策略的深度強化學習演算法
      2.2.1  循環確定性策略梯度
      2.2.2  深度確定性策略梯度
      2.2.3  信賴域策略優化
      2.2.4  近端策略優化
    2.3  基於模型的深度強化學習演算法
      2.3.1  基於模型加速的連續深度Q-learning
      2.3.2  範例模型探索
      2.3.3  基於模型集成的信賴域策略優化
      2.3.4  時間差分模型
    2.4  基於分層的深度強化學習演算法
      2.4.1  分層深度強化學習
      2.4.2  基於封建網路的分層強化學習
      2.4.3  基於隨機神經網路的分層強化學習
  第3章  分散式深度強化學習
    3.1  分散式系統
      3.1.1  分散式系統簡介
      3.1.2  分散式系統的發展歷史
      3.1.3  架構演進

      3.1.4  主流分散式系統框架
    3.2  分散式深度強化學習演算法
      3.2.1  分散式近端策略優化
      3.2.2  分散式深度確定性策略梯度
    3.3  分散式深度強化學習框架
      3.3.1  重要性加權Actor-Learner架構
      3.3.2  分散式優先經驗復用池
第二篇 多智能體深度強化學習
  第4章  多智能體深度強化學習基礎
    4.1  多智能體強化學習
      4.1.1  多智能體強化學習發展歷史
      4.1.2  多智能體強化學習簡介
      4.1.3  優勢和挑戰
    4.2  部分可見馬爾可夫決策過程
      4.2.1  POMDP模型
      4.2.2  POMDP相關研究
      4.2.3  POMDP應用領域
  第5章  多智能體深度強化學習演算法
    5.1  基於值函數的多智能體深度強化學習
      5.1.1  基於DQN的多智能體網路
      5.1.2  增強智能體間學習
      5.1.3  協同多智能體學習的價值分解網路
      5.1.4  多智能體深度強化學習的穩定經驗復用池
      5.1.5  單調值函數分解
      5.1.6  深度強化學習中的對立智能體建模
      5.1.7  平均場多智能體強化學習
    5.2  基於策略的多智能體深度強化學習
      5.2.1  基於自身策略的其他智能體行為預測
      5.2.2  雙重平均方案
      5.2.3  多智能體深度強化學習的統一博弈論方法
    5.3  基於AC框架的多智能體深度強化學習
      5.3.1  多智能體深度確定性策略梯度
      5.3.2  多智能體集中規劃的價值函數策略梯度
      5.3.3  多智能體系統的策略表示學習
      5.3.4  部分可觀察環境下的多智能體策略優化
      5.3.5  基於聯網智能體的完全去中心化MARL
第三篇 多任務深度強化學習
  第6章  多任務深度強化學習基礎
    6.1  簡介
      6.1.1  理論概述
      6.1.2  面臨的挑戰
    6.2  策略蒸餾法
  第7章  多任務深度強化學習演算法
    7.1  無監督強化與輔助學習
      7.1.1  演算法介紹
      7.1.2  演算法分析
      7.1.3  使用場景與優勢分析
    7.2  使用漸進式神經網路解決任務的複雜序列
      7.2.1  演算法介紹
      7.2.2  演算法分析

      7.2.3  使用場景與優勢分析
    7.3  基於單智能體的多任務共享模型
      7.3.1  演算法介紹
      7.3.2  演算法分析
      7.3.3  使用場景與優勢分析
    7.4  使用PopArt歸一化多任務更新幅度
      7.4.1  演算法介紹
      7.4.2  演算法分析
      7.4.3  使用場景與優勢分析
第四篇 深度強化學習的應用
  第8章  遊戲
    8.1  Gym Retro遊戲平台
      8.1.1  平台簡介
      8.1.2  安裝Gym Retro平台
      8.1.3  安裝Retro UI
      8.1.4  Gym Retro主要函數說明
    8.2  相關應用
      8.2.1  Pong遊戲
      8.2.2  CartPole
      8.2.3  Flappy Bird
      8.2.4  Gradius
  第9章  機器人控制
    9.1  機器人導航
      9.1.1  無地圖導航
      9.1.2  社會感知機器人導航
    9.2  路徑規劃
    9.3  機器人視覺
  第10章  電腦視覺
    10.1  圖像
      10.1.1  圖像字幕
      10.1.2  圖像恢復
    10.2  視頻
      10.2.1  視頻字幕
      10.2.2  視頻快進
      10.2.3  視覺跟蹤
  第11章  自然語言處理
    11.1  與知識庫交互的多輪對話智能體
      11.1.1  概率KB查找
      11.1.2  端到端KB-InfoBot
      11.1.3  總結
    11.2  魯棒遠程監督關係提取
      11.2.1  問題表述
      11.2.2  使用基於策略的智能體重新分配訓練數據集
      11.2.3  總結
    11.3  非成對情感–情感翻譯
      11.3.1  問題表述
      11.3.2  訓練演算法
      11.3.3  總結
縮寫參照表
常用詞中英文對照

參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032