幫助中心 | 我的帳號 | 關於我們

強化學習(人工智慧如何知錯能改)/人工智慧超入門叢書

  • 作者:龔超//王冀//梁霄//貴寧|責編:雷桐輝
  • 出版社:化學工業
  • ISBN:9787122452825
  • 出版日期:2024/08/01
  • 裝幀:平裝
  • 頁數:234
人民幣:RMB 69.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    「人工智慧超入門叢書」致力於面向人工智慧各技術方向零基礎的讀者,內容涉及數據素養,機器學習、視覺感知、情感分析、搜索演算法、強化學習、知識圖譜、專家系統等方向。本叢書體系完整、內容簡潔、語言通俗,綜合介紹了人工智慧相關知識,並輔以程序代碼解決問題,使得零基礎的讀者能夠快速入門。
    《強化學習:人工智慧如何知錯能改》是「人工智慧超入門叢書」中的分冊,以科普的形式講解了強化學習的核心知識,內容生動有趣,帶領讀者走進強化學習的世界。本書包含強化學習方向的基礎知識,如動態規劃、時序差分等,讓讀者在開始學習時對強化學習有初步的認識;之後,通過對馬爾可夫決策過程及貝爾曼方程的解讀,逐漸過渡到強化學習的關鍵內容;同時,本書也重點解析了策略迭代與價值迭代兩種核心演算法,也對蒙特卡洛方法、時序差分演算法、深度強化學習及基於策略的強化學習演算法進行了深度剖析。本書內容結構完整、邏輯清晰、層層遞進,並配有相關實例與代碼,讓讀者在閱讀學習過程中能夠加深理解。
    本書適合強化學習及人工智慧方向的初學者閱讀學習,也可供高等院校人工智慧及電腦類專業的師生參考。

作者介紹
龔超//王冀//梁霄//貴寧|責編:雷桐輝

目錄
第1章  強化學概述
  1.1  什麼是強化學
    1.1.1  初識強化學
    1.1.2  強化學的關鍵要素
    1.1.3  監督、無監督與強化學
  1.2  三條主線
    1.2.1  試錯
    1.2.2  動態規劃
    1.2.3  時序差分
  1.3  強化學的方法與應用
    1.3.1  強強聯合之深度強化學
    1.3.2  強化學的跨界賦能
    1.3.3  強化學的分類
第2章  馬爾可夫與貝爾曼方程
  2.1  「隨機」那些事兒
    2.1.1  概率的基本概念
    2.1.2  網格迷宮的探索
    2.1.3  探索的策略與獎勵
    2.1.4  探索的足跡
  2.2  馬爾可夫大家族
    2.2.1  馬爾可夫過程
    2.2.2  馬爾可夫獎勵過程
    2.2.3  馬爾可夫決策過程
  2.3  貝爾曼方程
    2.3.1  值函數與動作值函數
    2.3.2  貝爾曼方程
    2.3.3  貝爾曼方程
第3章  動態規劃
  3.1  動態規劃基礎與環境
    3.1.1  動態規劃基礎
    3.1.2  環境:冰湖
  3.2  策略迭代演算法
    3.2.1  原理
    3.2.2  代碼
  3.3  值迭代演算法
    3.3.1  原理
    3.3.2  代碼
第4章  蒙卡洛
  4.1  隨機變數的數字征
    4.1.1  期望
    4.1.2  方差
  4.2  蒙卡洛方法與應用
    4.2.1  圓面積的估計
    4.2.2  均值估計
  4.3  蒙卡洛與強化學
    4.3.1  原理
    4.3.2  環境:21點
    4.3.3  代碼
第5章  時序差分
  5.1  時序差分

    5.1.1  時序差分基礎
    5.1.2  環境:懸崖漫步
  5.2  Sarsa演算法
    5.2.1  原理
    5.2.2  代碼
  5.3  Q-Learning演算法
    5.3.1  原理
    5.3.2  代碼
第6章  深度強化學
  6.1  DQN入門
    6.1.1  DQN的基本概念
    6.1.2  環境:車桿
  6.2  BP經網路+強化學
    6.2.1  原理
    6.2.2  代碼
  6.3  卷積經網路+強化學
    6.3.1  原理
    6.3.2  代碼
  6.4  DQN的改進
第7章  策略學
  7.1  策略梯度演算法
    7.1.1  策略梯度原理
    7.1.2  REINFORCE演算法
    7.1.3  代碼
  7.2  Actor-Critic演算法
    7.2.1  原理
    7.2.2  環境:LunarLander
    7.2.3  代碼
  7.3  其他基於策略的演算法
附錄
  附錄A  環境設置與行為探索
    A.1  Gym庫與環境設置
    A.2  具有人類偏好的多智能體強化學
  附錄B  博弈與策略
    B.1  什麼是博弈
    B.2  混合策略博弈
    B.3  序貫博弈
    B.4  無限博弈與有限博弈
  附錄C  收益衡量
    C.1  理性收益:期望值
    C.2  效用收益:期望效用
    C.3  情感收益:前景理論

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032