幫助中心 | 我的帳號 | 關於我們

強化學習(人工智慧領域101計劃參考教材)

  • 作者:編者:張偉楠//李帥//溫穎//蘭旭光//楊森|責編:龍啟銘
  • 出版社:清華大學
  • ISBN:9787302714699
  • 出版日期:2026/05/01
  • 裝幀:平裝
  • 頁數:420
人民幣:RMB 99 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書是教育部人工智慧領域「101計劃」「強化學習」課程配套教材。
    本書採用「基礎理論-進階方法-前沿拓展」的三段式知識體系,幫助讀者由淺入深地掌握強化學習的核心思想與方法論。全書分為三部分:第一部分強化學習基礎(第1?7章),從學科概覽與發展脈絡出發,介紹馬爾可夫決策過程(MDP)的理論基礎,重點講解表格型強化學習方法,通過網格世界、懸崖行走等經典案例,幫助讀者深入理解強化學習演算法的核心原理;第二部分強化學習進階(第8?13章),聚焦深度強化學習的範式遷移與方法創新,從線性近似過渡到深度神經網路的價值函數逼近,對比分析DQN、PPO、SAC等主流深度強化學習演算法架構,並剖析基於模型的方法在環境建模方面的優勢,特別注重演算法原理的深入剖析,使讀者能夠掌握深度強化學習的核心思想;第三部分強化學習前沿(第14?20章),拓展學科交叉應用與前沿研究方向,涵蓋模仿學習、離線強化學習等數據驅動範式,詳解人類反饋強化學習(RLHF)的對齊技術,並探索量子計算、擴散模型等新興交叉領域。
    全書採用分層知識體系,適配不同教學需求;提供學科全景視角,包括歷史脈絡梳理、學科發展樹狀圖和未解問題討論,幫助讀者建立完整的知識框架;立足理論,著眼實踐,全書關鍵演算法的關鍵模塊均配備代碼實例演示,方便學生親自試驗,在實操中增強對演算法原理的理解;注重教學友好性,每章包含本章小結、關鍵公式推導和習題,方便教師授課與學生自學。
    本書是一本面向高等學校本科生的強化學習系統性教材,適合作為相關專業的「強化學習」課程的教材使用,也可供相關領域的研究人員參考。

作者介紹
編者:張偉楠//李帥//溫穎//蘭旭光//楊森|責編:龍啟銘

目錄
第1章  強化學習概述
  1.1  決策型人工智慧
  1.2  強化學習是什麼
  1.3  強化學習的思維方式
  1.4  強化學習的基本方法概覽
    1.4.1  環境模型
    1.4.2  價值函數和策略
    1.4.3  表格式強化學習和參數化強化學習
  1.5  強化學習前沿概覽
  1.6  強化學習應用概覽
  1.7  本章小結
  1.8  習題
第2章  強化學習的歷史沿革
  2.1  強化學習的早期發展
  2.2  強化學習的關鍵技術發展
  2.3  本章小結
  2.4  習題
第3章  在線學習與探索利用平衡
  3.1  在線學習的學習目標
  3.2  先探索后利用演算法
  3.3  ε-貪婪演算法
  3.4  置信上界演算法
    3.4.1  UCB1演算法
    3.4.2  UCB1演算法的優化變種
    3.4.3  UCB演算法的優勢與局限性
  3.5  湯姆森採樣演算法
  3.6  在線學習的問題下界
    3.6.1  問題獨立型下界
    3.6.2  問題依賴型下界
  3.7  本章小結
  3.8  習題
第4章  馬爾可夫決策過程
  4.1  馬爾可夫過程
    4.1.1  馬爾可夫性質
    4.1.2  馬爾可夫過程的定義
  4.2  馬爾可夫決策過程
  4.3  策略
  4.4  價值函數
  4.5  佔用度量
  4.6  本章小結
  4.7  習題
第5章  動態規劃
  5.1  貝爾曼方程
    5.1.1  貝爾曼期望方程
    5.1.2  貝爾曼最優方程
  5.2  策略評估
  5.3  策略提升定理
  5.4  策略迭代
  5.5  價值迭代
  5.6  不動點定理

  5.7  本章小結
  5.8  習題
第6章  無模型策略評估
  6.1  無模型強化學習
    6.1.1  均值估計
    6.1.2  無模型策略評估的意義
  6.2  蒙特卡洛方法
    6.2.1  狀態價值函數的蒙特卡洛估計
    6.2.2  動作價值函數的蒙特卡洛估計
  6.3  時序差分方法
  6.4  重要性採樣
  6.5  本章小結
  6.6  習題
第7章  無模型策略學習
第8章  基於規劃的強化學習
第9章  部分可觀測的馬爾可夫決策過程
第10章  參數化近似方法
第11章  深度強化學習價值方法
第12章  深度強化學習策略方法
第13章  基於模型的深度強化學習
第14章  模仿學習
第15章  離線強化學習
第16章  目標驅動的強化學習
第17章  基於人類反饋的強化學習
第18章  基於擴散模型的強化學習
第19章  大規模並行強化學習
第20章  量子強化學習
附錄A  符號表和術語表
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032