城市交通信號控制建模與優化(基於智能計算和深度強化學習)
內容大鋼
本書圍繞城市交通信號控制難題,綜合運用智能計算與深度強化學習技術展開介紹。開篇闡述了交通擁堵現狀及智能交通系統發展背景,梳理了交通信號控制技術的研究現狀。接著,針對多交叉口信號協同控制,提出半分散式三層框架及相應優化模型與演算法;針對傳統車流動力學建模局限,引入單智能體深度強化學習方法,創新動作空間、獎勵函數等;針對多交叉口信號控制難題,提出新演算法並結合平均場理論等機制,解決維度災難和Q值過估計問題。
本書所提模型和演算法均通過模擬實驗,有較強的實踐指導意義。本書適合交通工程領域的工程師及科研人員學習,也可用作高等院校相關專業的教學參考書。
作者介紹
喬志敏|責編:耍利娜
喬志敏,太原工業學院副教授。畢業於西安交通大學控制科學與工程專業,博士研究生學歷。主要研究方向:群體智能演算法、強化學習、交通信號控制等。先後在《控制理論與應用》《Applied Intelligence》等期刊上發表多篇論文。
目錄
第1章 緒論
1.1 交通信號控制技術研究背景
1.2 交通信號控制技術分類及國內外研究現狀
1.2.1 基於經典方法的交通信號控制技術
1.2.2 基於深度強化學習的交通信號控制技術
1.2.3 基於車聯網的交通信號控制技術
1.2.4 交通信號控制技術的研究現狀
1.3 本書主要思路及內容
1.3.1 主要思路
1.3.2 主要內容
第2章 基礎知識
2.1 進化計算方法概述
2.2 強化學習概述
2.3 單智能體深度強化學習
2.4 多智能體深度強化學習
2.4.1 隨機博弈
2.4.2 納什Q學習
2.4.3 多智能體深度確定性策略梯度演算法
2.5 平均場多智能體強化學習
2.5.1 平均場近似理論
2.5.2 平均場多智能體強化學習演算法
2.6 本章小結
第3章 基於車流動力學的交通信號控制問題建模及優化演算法
3.1 引言
3.2 交通場景下的基本參數和評價指標
3.2.1 基本參數
3.2.2 評價指標
3.3 多交叉口交通信號控制問題描述
3.4 多交叉口交通信號控制問題建模
3.4.1 相位差延遲模型
3.4.2 綠信比延遲模型
3.4.3 改進的公共周期模型
3.4.4 信號協同優化模型
3.4.5 交叉口分級策略
3.5 基於免疫的煙花演算法
3.5.1 煙花演算法和免疫機制的基本思想
3.5.2 基於免疫的煙花演算法設計
3.6 模擬與分析
3.6.1 模擬環境及實驗參數設置
3.6.2 交通環境下的模擬與分析
3.6.3 標準函數下的模擬與分析
3.7 本章小結
第4章 基於深度強化學習的單智能體交通信號控制
4.1 引言
4.2 基於馬爾可夫決策過程的交通信號控制問題描述
4.2.1 狀態空間
4.2.2 動作空間
4.2.3 獎勵函數
4.2.4 累積延遲的近似
4.3 基於動態權重的soft actor-critic演算法
4.3.1 動態權重
4.3.2 基於動態權重的soft actor-critic演算法設計
4.4 模擬與分析
4.4.1 模擬平台設置
4.4.2 演算法參數設置
4.4.3 交通環境下的模擬與分析
4.4.4 標準連續控制任務下的模擬與分析
4.5 本章小結
第5章 基於深度強化學習的多智能體交通信號控制
5.1 引言
5.2 基於馬爾可夫博弈的交通信號控制問題描述
5.3 合作的基於指數加權移動平均的動態延遲更新雙延遲深度確定性策略梯度演算法
5.3.1 強化學習中的Q值過估計問題
5.3.2 基於指數加權移動平均的動態延遲更新策略
5.3.3 合作的基於指數加權移動平均的動態延遲更新雙延遲深度確定性策略梯度演算法設計
5.4 模擬與分析
5.4.1 模擬平台設置
5.4.2 演算法參數設置
5.4.3 模擬結果與分析
5.5 本章小結
第6章 &