幫助中心 | 我的帳號 | 關於我們

多機器人系統強化學習/信息科學技術前沿叢書

  • 作者:張文旭//王曉東|責編:滿志文
  • 出版社:北京郵電大學
  • ISBN:9787563570607
  • 出版日期:2024/01/01
  • 裝幀:平裝
  • 頁數:272
人民幣:RMB 68 元      售價:
放入購物車
加入收藏夾

內容大鋼
    強化學習是機器學習領域的一種重要學習手段,是一種從環境狀態到行為映射的學習方式,是實現智能系統具有自適應能力、自學習能力的重要途徑。本書以強化學習演算法與多機器人系統的結合為主要背景,介紹了主要的強化學習演算法模型,討論了它們的原理和優缺點;本書針對多機器人協作,從實際應用問題的角度分析,指出了局部性、不確定性和自組織網路等在學習中的現實意義;本書針對強化學習存在的學習速度慢、計算複雜度高等問題,研究了幾種改進演算法,並基於MATLAB設計了機器人模擬工具箱,以機器人路徑規劃與覆蓋問題為背景進行了模擬研究。
    本書可作為高等院校人工智慧、自動化、電腦等相關專業的科研工作者及碩士、博士研究生的參考用書。

作者介紹
張文旭//王曉東|責編:滿志文

目錄
第1章  緒論
  1.1  研究背景與意義
  1.2  機器學習演算法
  1.3  多機器人的協調與協作
  1.4  不確定環境下的多機器人系統
  本章參考文獻
第2章  多機器人協作與強化學習模型
  2.1  引言
  2.2  強化學習原理
    2.2.1  強化學習結構
    2.2.2  Monte Carlo演算法
    2.2.3  瞬時差分法
    2.2.4  Q-學習
    2.2.5  Sarsa演算法
    2.2.6  Actor-Critic學習演算法
    2.2.7  R-學習演算法
  2.3  分散式強化學習模型
    2.3.1  分散式強化學習模型
    2.3.2  研究現況及存在的問題
  2.4  多機器人決策模型
    2.4.1  馬爾可夫模型
    2.4.2  分散式馬爾可夫模型
    2.4.3  局部可觀測的馬爾可夫模型
    2.4.4  分散式局部可觀測的馬爾可夫模型
    2.4.5  研究現狀與存在的問題
  2.5  多機器人一致性模型
    2.5.1  圖論
    2.5.2  矩陣論
    2.5.3  Gossip一致性演算法
    2.5.4  離散一致性演算法
  2.6  強化學習存在問題及改進分析
    2.6.1  盲目搜索方式與啟髮式搜索方式分析
    2.6.2  啟髮式強化學習分析
    2.6.3  遷移強化學習分析
    2.6.4  事件驅動與機器學習的結合問題分析
  2.7  本章小結
  本章參考文獻
第3章  基於一致性的多機器人強化學習研究
  3.1  引言
  3.2  基於一致性的DEC-POMDP強化學習框架
    3.2.1  強化學習中的局部觀測性和不確定性
    3.2.2  分散式多機器人強化學習模型
    3.2.3  多機器人強化學習一致性設計方案
  3.3  基於一致性的多機器人強化學習演算法
    3.3.1  基於一致性的多機器人強化學習演算法
    3.3.2  基於一致性的策略化簡
  3.4  收斂性分析
  3.5  模擬實驗
  3.6  本章小結
  本章參考文獻

第4章  基於事件驅動的多機器人強化學習研究
  4.1  引言
  4.2  事件驅動原理
  4.3  強化學習的事件驅動模型與觸發規則設計
    4.3.1  基於事件驅動的強化學習模型
    4.3.2  觸發規則設計
  4.4  基於事件驅動的強化學習
    4.4.1  基於事件驅動的強化學習設計
    4.4.2  計算資源消耗分析
    4.4.3  演算法收斂性分析
  4.5  模擬實驗
  4.6  本章小結
  本章參考文獻
第5章  基於事件驅動的啟髮式強化學習研究
  5.1  引言
  5.2  啟髮式加速強化學習方法
    5.2.1  啟髮式加速Q-學習
    5.2.2  基於狀態回溯代價分析啟髮式Q-學習
    5.2.3  基於Case Based Reasoning的多機器人啟髮式加速Q-學習
  5.3  基於事件驅動的啟髮式Q-學習設計
    5.3.1  基於事件驅動的HAQL演算法
    5.3.2  基於事件驅動的HASB-QL演算法
    5.3.3  基於事件驅動的CB-HAQL演算法
  5.4  本章小結
    本章參考文獻
第6章  基於啟髮式強化學習的多機器人覆蓋問題研究
  6.1  引言
  6.2  基於HAQL的多機器人覆蓋演算法設計
    6.2.1  啟髮式加速Q-學習機制
    6.2.2  事件驅動機制
    6.2.3  覆蓋演算法設計
    6.2.4  單機器人覆蓋模擬實驗與分析
    6.2.5  多機器人覆蓋模擬實驗與分析
  6.3  基於HASB-QL的多機器人覆蓋演算法設計
    6.3.1  狀態回溯代價分析的強化學習機制
    6.3.2  觸發函數設計
    6.3.3  覆蓋演算法設計
    6.3.4  單機器人覆蓋模擬實驗與分析
    6.3.5  多機器人覆蓋模擬實驗與分析
  6.4  基於CB-HAQL的多機器人覆蓋演算法設計
    6.4.1  案例推理的啟髮式學習機制
    6.4.2  觸發函數機制
    6.4.3  覆蓋演算法設計
    6.4.4  單機器人覆蓋模擬實驗
    6.4.5  多機器人覆蓋演算法設計
  6.5  本章小結
    本章參考文獻
第7章  基於強化學習演算法的地-空異構多機器人覆蓋研究
  7.1  引言
  7.2  地-空異構多機器人模型設計

    7.2.1  環境地圖模型搭建
    7.2.2  運動學模型搭建
    7.2.3  無人駕駛地面小車的觀測模型設計
    7.2.4  無人飛行器觀測模型及通信模型設計
  7.3  多機器人覆蓋模型搭建
    7.3.1  基於POMDP的覆蓋模型搭
    7.3.2  基於POMDP的覆蓋模擬實驗
    7.3.3  基於DEC-POMDP的覆蓋模型搭建
    7.3.4  基於DEC-POMDP的覆蓋模擬實驗
  7.4  地-空異構多機器人覆蓋演算法研究
    7.4.1  異構多機器人覆蓋分析
    7.4.2  基於強化學習的異構多機器人覆蓋演算法
    7.4.3  忽略通信代價的地-空多機器人覆蓋
    7.4.4  考慮通信策略的地-空多機器人覆蓋
  7.5  本章小結
    本章參考文獻
第8章  基於強化學習的機器人路徑規劃研究
  8.1  引言
  8.2  基於近似動作空間模型強化學習的移動機器人動態路徑規劃
    8.2.1  動作選擇策略分析
    8.2.2  基於近似動作模型策略選擇的Q-學習演算法設計
    8.2.3  模擬結果與分析
  8.3  基於分層強化學習的移動機器人動態路徑規劃
    8.3.1  分層強化學習結構設計
    8.3.2  移動機器人運動學模型
    8.3.3  環境信息的獲取
    8.3.4  靜態避障模塊設計
    8.3.5  動態避障模塊設計
    8.3.6  模擬實驗及結果分析
  8.4  硬體平台搭建與實驗
    8.4.1  機器人硬體平台搭建
    8.4.2  機器人軟體系統搭建
    8.4.3  基於ROS與Gazebo的機器人模擬
    8.4.4  實驗結果與分析
  8.5  本章小結
  本章參考文獻
第9章  多機器人強化學習工具箱設計
  9.1  引言
  9.2  多機器人工具箱模塊設計
    9.2.1  多機器人模塊設計
    9.2.2  地圖環境模塊設計
  9.3  強化學習函數模塊設計
    9.3.1  強化學習模塊設計
    9.3.2  持久層模塊設計
    9.3.3  模擬場景模塊設計
  9.4  工具類函數設計
    9.4.1  公用工具類函數庫設計
    9.4.2  可視化界面設計
  9.5  本章小結
    本章參考文獻

第10章  多機器人移動自組織網路研究
  10.1  引言
  lO.2  自組織網路原理
    10.2.1  自組織網路
    10.2.2  Ad hoc網路基本結構
    10.2.3  Ad hoc網路協議的分類
    10.2.4  先驗式路由協議與反應式路由協議
    10.2.5  鏈路狀態路由協議和距離矢量路由協議
    10.2.6  Linux系統協議體系
    10.2.7  IPv4
  10.3  自組織網路系統的軟硬體設計
    10.3.1  硬體設計
    10.3.2  軟體搭載與設計
    10.3.3  大規模數據統計處理程序設計
    10.3.4  ifstat流量監測
  10.4  移動機器人自組織網路系統的軟硬體實現
    10.4.1  協議實現的可能性和基礎框架
    10.4.2  OLSR協議的原理
    10.4.3  OLSR協議的實現
    10.4.4  AODV協議的原理
    10.4.5  AODV協議的實現
  10.5  實驗結果及分析
    10.5.1  實驗設計策略和相關標準
    10.5.2  協議性能驗證性實驗
    10.5.3  AODV協議在不同功能參數配置下的表現
    10.5.4  動態拓撲下性能實驗
    10.5.5  穩定拓撲下的網路吞吐量實驗
  10.6  本章小結
  本章參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032