幫助中心 | 我的帳號 | 關於我們

強化學習入門(基於Python)/基於Python的數據分析叢書

  • 作者:編者:吳喜之//張敏|責編:胡志敏
  • 出版社:中國人民大學
  • ISBN:9787300313818
  • 出版日期:2023/03/01
  • 裝幀:平裝
  • 頁數:186
人民幣:RMB 49 元      售價:
放入購物車
加入收藏夾

內容大鋼
    強化學習是三種基本機器學習範式之一,與監督學習和無監督學習並駕齊驅。強化學習是一種自我進化的機器學習類型,它使我們更接近於實現真正的人工智慧(AI)。強化學習是機器學習的一個分支,其中學習是通過與環境交互來進行的。強化學習是面向目標的學習,不教學習者採取什麼行動,相反,學習者從其行為的結果中學習。從早年的AlphaGo到最近的ChatGPT等人工智慧產品表明,強化學習已成為人工智慧研究中最活躍的領域之一。
    沒有實例做背景的概念是沒有生命力的,沒有實踐支撐的演算法是學不會的。本書試圖通過各種類型的實例來介紹強化學習的各個方面,盡量避免因分類理念而造成的麻煩。使用本書時最好先看本書1.1節和1.2節的一些例子,明白這些例子要做些什麼,不必完全明白其中使用的代碼。然後瀏覽1.7節的例子,這些例子中的問題是後面要解決的,因此需要先有些印象。在此之後,大致看看1.3?1.6節的知識性內容,即使不能夠馬上理解這些內容,也沒有關係,但要盡量掌握第2章關於馬爾可夫決策過程的理論知識,如果覺得理解起來困難,可以結合第3章中的各種更加具體的強化學習方法及具體例子的編程,還可以回顧第2章及第1章的有關內容。這種在實踐和理論(方法)之間反覆相互促進的方式是學好強化學習的關鍵。最後3章包含了關於Python、PyTorch的內容及一些數學知識。這些內容讀者可根據需要來學習或參考。
    本書是一本面向希望從頭開始學習強化學習的數據科學類專業(包括統計類專業)的師生、實際工作者、機器學習開發人員和深度學習愛好者等廣大讀者的強化學習入門書籍。

作者介紹
編者:吳喜之//張敏|責編:胡志敏

目錄
第一部分  強化學習基礎與實踐
第1章  引言
  1.1  從迷宮問題談起
    1.1.1  人類和動物所面對的迷宮問題
    1.1.2  迷宮的說明性例子
    1.1.3 例1.1:獎勵矩陣
    1.1.4 例1.1:訓練以得到關於狀態和行動的獎勵:Q矩陣
    1.1.5 例1.1:使用Q矩陣來得到最優行動(路徑)
    1.1.6 例1.1:把代碼組合成class
  1.2  熱身:井字遊戲*
    1.2.1  兩個真人的簡單井字遊戲
    1.2.2  人和機器的井字遊戲的強化學習實踐
    1.2.3  井字遊戲的強化學習代碼解釋
    1.2.4  整個訓練過程
    1.2.5  使用訓練后的模型做人機遊戲
    1.2.6  1.2.1節代碼
    1.2.7  附錄:1.2.3節人和機器的井字遊戲代碼
  1.3  強化學習的基本概念
  1.4  馬爾可夫決策過程的要素
  1.5  作為目標的獎勵
  1.6  探索與開發的權衡
    1.6.1  探索與開發
    1.6.2  強化學習中的優化和其他學科的區別
  1.7  本書將會討論和運算的一些例子
    1.7.1 例1.3格子路徑問題
    1.7.2 例1.4計程車問題
    1.7.3 例1.5推車桿問題
    1.7.4 例1.6倒立擺問題
    1.7.5 例1.7多臂老虎機問題
    1.7.6 例1.7和其他例子(例1.3、例1.5及例1.6)的區別
第2章  馬爾可夫決策過程和動態規劃
  2.1  馬爾可夫決策過程簡介
    2.1.1  馬爾可夫性
    2.1.2  策略
    2.1.3  作為回報期望的價值函數
    2.1.4 通過例 1.3  格子路徑問題理解本節概念
  2.2  動態規劃
    2.2.1  動態規劃簡介
    2.2.2  Bellman方程
    2.2.3  最優策略和最優價值函數
  2.3  強化學習基本方法概述
    2.3.1  代理與環境的互動
    2.3.2  策略迭代:策略評估和策略改進
    2.3.3  價值迭代
    2.3.4  策略迭代與價值迭代比較
    2.3.5  非同步動態規劃
    2.3.6  廣義策略迭代
    2.3.7  策略梯度
    2.3.8  off-policy, on-policy和offline RL
  2.4  蒙特卡羅抽樣

    2.4.1  MC策略評估
    2.4.2  MC狀態-行動值的估計
    2.4.3  on-policy:Q價值的MC估計
    2.4.4  off-policy:MC預測
    2.4.5  MC的策略梯度
  2.5  和本章概念相關的例子
    2.5.1  例1.3格子路徑問題使用Bellman方程做價值迭代
    2.5.2  例1.3格子路徑問題的TD函數
第3章  各種機器學習演算法及實例
  3.1  暫時差(TD)簡介
    3.1.1  TD、DP和MC演算法的比較
    3.1.2  TD方法的特點
    3.1.3  TD(0)方法的延伸
  3.2  TD評估及策略改進
    3.2.1  SARSA (on-policy)
    3.2.2  Q學習 (off-policy)
    3.2.3  加倍Q學習 (off-policy)
  3.3  函數逼近及深度學習演算法
    3.3.1  基於價值和策略的函數逼近
    3.3.2  深度Q學習
    3.3.3  TD:演員-批評者(AC)架構
    3.3.4  A2C演算法步驟
    3.3.5  A3C演算法
    3.3.6  DDPG演算法
    3.3.7  ES演算法
    3.3.8  PPO演算法
    3.3.9  SAC演算法
  3.4 用第1章的例子理解本章演算法
    3.4.1 例1.3格子路徑問題:SARSA
    3.4.2 例1.4計程車問題:SARSA
    3.4.3 例1.3格子路徑問題:加倍Q學
    3.4.4 例1.5推車桿問題:深度Q學習
    3.4.5 例1.5推車桿問題:A3C
    3.4.6 例1.6倒立擺問題:DDPG
    3.4.7 例1.5推車桿問題:ES
    3.4.8 例1.5推車桿問題:PPO-Clip
    3.4.9 例1.6倒立擺問題:SAC
第二部分:軟體及一些數學知識
第4章  Python基礎
  4.1  引言
  4.2  安裝
    4.2.1  安裝及開始體驗
    4.2.2  運行Notebook
  4.3  基本模塊的編程
  4.4  Numpy模塊
  4.5  Pandas模塊
  4.6  Matplotlib模塊
  4.7  Python 的類——面向對象編程簡介
    4.7.1  類的基本結構
    4.7.2  計算最小二乘回歸的例子

    4.7.3  子類
第5章  PyTorch與深度學習
  5.1  作為機器學習一部分的深度學習
  5.2  PyTorch 簡介
  5.3  神經網路簡介
    5.3.1  神經網路概述
    5.3.2  梯度下降法
    5.3.3  深度神經網路的PyTorch表示
  5.4  深度學習的步驟
    5.4.1  定義神經網路
    5.4.2  轉換數據成訓練需要的格式
    5.4.3  訓練並評估結果
第6章  回顧一些數學知識*
  6.1  條件概率和條件期望
  6.2  范數和收縮
  6.3  線性代數
    6.3.1  特徵值和特徵向量
    6.3.2  隨機矩陣
  6.4  馬爾可夫決策過程
    6.4.1  馬爾可夫鏈和馬爾可夫決策過程
    6.4.2  策略
    6.4.3  關於時間視界的優化
  6.5  Bellman方程
    6.5.1  有折扣無限視界問題的Bellman問題
    6.5.2  無折扣無限視界問題的Bellman問題
  6.6  動態規劃
    6.6.1  價值迭代
    6.6.2  策略迭代

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032