幫助中心 | 我的帳號 | 關於我們

擴散模型(核心原理與強化學習優化)

  • 作者:編者:陳雲//牛雅哲//張金歐文|責編:武少波
  • 出版社:人民郵電
  • ISBN:9787115676122
  • 出版日期:2025/11/01
  • 裝幀:平裝
  • 頁數:178
人民幣:RMB 79.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書通過系統化的理論講解與實戰導向的案例分析,幫助讀者掌握擴散模型與強化學習的結合應用,探索其針對實際問題的解決方案。書中首先介紹了生成模型的發展史,特別是擴散模型的起源和核心思想,為讀者學習後續章節奠定基礎;然後深入探討了擴散模型在構建決策智能體、結合價值函數等方面的應用,還詳細講解了如何利用擴散模型解決軌跡優化和策略優化等問題;接下來探索了擴散模型在多任務泛化和世界模型建模方面的擴展應用,展示了其在複雜環境中的適應性和靈活性;最後討論了利用強化學習優化擴散模型的新進展,以及擴散模型在決策問題上的前沿研究方向。
    通過本書的學習,讀者不僅能夠理解擴散模型和強化學習的理論基礎,還能掌握將其應用於實際問題的技巧和方法。無論你是人工智慧領域的研究者,還是希望在實際項目中應用這些技術的工程師,本書都將為你提供有價值的參考和指導。

作者介紹
編者:陳雲//牛雅哲//張金歐文|責編:武少波

目錄
第1章  起源:擴散模型簡介
  1.1  生成模型的發展史
  1.2  擴散模型核心思想介紹
    1.2.1  擴散過程及其逆過程
    1.2.2  擴散模型的訓練
    1.2.3  擴散模型的推斷
    1.2.4  擴散模型的評價指標
    1.2.5  擴散模型的類型
  1.3  條件擴散模型
    1.3.1  分類器引導採樣和無分類器引導採樣
    1.3.2  ControlNet
  1.4  擴散模型加速採樣方法
    1.4.1  training-free加速採樣方法
    1.4.2  training-based加速採樣方法
  參考文獻
第2章  基石:擴散模型與軌跡優化問題
  2.1  離線強化學習
  2.2  第一個基於擴散模型的決策智能體:Plan Diffuser
    2.2.1  以軌跡片段為對象的擴散模型
    2.2.2  Plan Diffuser的建模與優化
    2.2.3  Plan Diffuser的特性
    2.2.4  從實驗中解析Plan Diffuser
    2.2.5  靈活的測試目標
    2.2.6  離線強化學習
    2.2.7  擴散模型熱啟動
  2.3  條件生成決策模型的集大成者:Decision Diffuser
    2.3.1  Decision Diffuser的建模與優化
    2.3.2  回報以外的條件變數
  2.4  代碼實戰
    2.4.1  導入第三方庫
    2.4.2  準備數據集
    2.4.3  配置擴散模型
    2.4.4  實例化擴散模型
    2.4.5  訓練條件擴散模型
    2.4.6  條件採樣
  參考文獻
第3章  基石:擴散模型與價值函數的結合
  3.1  強化學習中基於價值函數的策略優化
  3.2  Diffusion-QL:高效建模離線數據集中的行為策略
  3.3  CEP和QGPO:借助能量函數設計新的引導器
    3.3.1  對比能量預測法
    3.3.2  基於Q價值函數引導的策略優化
  3.4  LDCQ:擴散模型約束下的Q-learning
    3.4.1  背景知識
    3.4.2  隱空間擴散強化學習
    3.4.3  以目標為條件的隱空間擴散模型
    3.4.4  實驗與分析
    3.4.5  局限性與展望
  參考文獻
第4章  基石:擴散模型訓練技巧指南

  4.1  如何設計去噪網路
    4.1.1  U-Net
    4.1.2  DiT
    4.1.3  文本編碼器
  4.2  如何設計訓練方案
    4.2.1  連續時間擴散模型的訓練
    4.2.2  擴散過程的設計與選擇
    4.2.3  擴散模型建模目標與訓練方式的選擇
  4.3  如何選擇擴散模型的類型
  4.4  代碼實戰
  參考文獻
第5章  擴展:多任務泛化
  5.1  離線元強化學習
  5.2  MetaDiffuser
    5.2.1  面向任務的上下文編碼器
    5.2.2  條件擴散模型架構
    5.2.3  雙引導增強規劃器
  參考文獻
第6章  擴展:世界模型建模
  6.1  世界模型簡介
  6.2  基於RNN的世界模型
    6.2.1  論文「World Models」
    6.2.2  DreamerV3
  6.3  基於Transformer的世界模型
    6.3.1  IRIS
    6.3.2  TWM
    6.3.3  STORM
  6.4  基於擴散模型的世界模型
    6.4.1  擴散範式的最佳實踐
    6.4.2  實驗結果
  參考文獻
第7章  反轉:用強化學習來優化擴散模型
  7.1  引言
  7.2  DDPO:將去噪過程建模為序列決策過程
    7.2.1  將擴散模型建模為多步MDP
    7.2.2  策略梯度估計
    7.2.3  各種獎勵模型下的採樣表現
  7.3  Diffusion-DPO:運用於擴散模型的直接偏好優化
    7.3.1  從RLHF到DPO
    7.3.2  將RLHF用於文本圖像對齊
    7.3.3  將DPO用於文本圖像對齊
    7.3.4  將DPO用於擴散模型優化
    7.3.5  文本圖像對齊實驗
    7.3.6  從強化學習角度推導Diffusion-DPO
  7.4  DRaFT:通過可微分獎勵函數直接優化擴散模型
    7.4.1  DRaFT
    7.4.2  DRaFT-K
    7.4.3  DRaFT-LV
    7.4.4  實驗結果
  7.5  代碼實戰

  參考文獻
第8章  擴展:擴散模型在決策問題上的新進展
  8.1  基於生成模型的強化學習策略
  8.2  決策基模型中的擴散模型
    8.2.1  ViNT
    8.2.2  NoMaD
    8.2.3  SuSIE
  8.3  總結與展望
  參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032