解構大語言模型(從線性回歸到通用人工智慧)

作者：唐?|責編:張爽
出版社：電子工業
ISBN：9787121477409

出版日期：2024/05/01
裝幀：平裝
頁數：414

人民幣：RMB 159 元售價：元

內容大鋼

本書從模型的結構和數據基礎兩個方面解構大語言模型，以便幫助讀者理解和搭建類似ChatGPT的系統。在模型的結構方面，大語言模型屬於深度神經網路，其設計核心是注意力機制，因此，本書涵蓋了多層感知器、卷積神經網路和循環神經網路等經典模型。在模型的數據基礎方面，本書既涉及模型訓練的工程基礎，如反向傳播，又涉及數據的使用方式，如遷移學習、強化學習，以及傳統的監督學習和無監督學習。此外，本書還闡述了如何從計量經濟學和經典機器學習模型中汲取靈感，以提高模型的穩定性和可解釋性。
本書既適用於希望深入了解大語言模型、通過人工智慧技術解決實際問題的讀者，也適合作為高等院校電腦及相關專業的師生參考用書。

作者介紹

唐?|責編:張爽
唐?，數據科學家，專註于機器學習和大數據，熱愛並積极參与ApacheSpark、Scikit-Learn等開源項目。作為講師和技術顧問，為多家機構（包括惠普、華為、復旦大學等）提供百余場技術培訓。此前的工作和研究集中於經濟和量化金融，曾參與經合組織（QECD）的研究項目並發表論文，並擔任英國最大在線出版社Packt的技術審稿人。曾獲得復旦大學的數學和電腦雙學士學位、巴黎綜合理工大學的金融碩士學位、法國國立統計與經濟管理學校的數據科學碩士學位。

第1章  緒論
  1.1  是數字鸚鵡，還是自我意識
    1.1.1  電車難題
    1.1.2  任務分解
  1.2  數據基礎
  1.3  模型結構
  1.4  關於本書
第2章  數學基礎：不可或缺的知識
  2.1  向量、矩陣和張量
    2.1.1  標量、向量、矩陣與張量
    2.1.2  數學記號與特殊矩陣
    2.1.3  矩陣運算
    2.1.4  向量夾角
    2.1.5  矩陣的秩
    2.1.6  高維張量運算
  2.2  概率
    2.2.1  定義概率：事件和概率空間
    2.2.2  條件概率：信息的價值
    2.2.3  隨機變數
    2.2.4  正態分佈：殊途同歸
    2.2.5  P-value：自信的猜測
  2.3  微積分
    2.3.1  導數和積分
    2.3.2  極限
    2.3.3  鏈式法則
    2.3.4  偏導數與梯度
    2.3.5  極值與最值
  2.4  本章小結
第3章  線性回歸：模型之母
  3.1  一個簡單的例子
    3.1.1  機器學習的建模方式
    3.1.2  統計分析的建模方式
  3.2  模型實現
    3.2.1  機器學習的代碼實現
    3.2.2  統計分析的代碼實現
  3.3  模型陷阱
    3.3.1  過擬合：模型越複雜越好嗎
    3.3.2  假設檢驗：統計分析的解決方案
    3.3.3  懲罰項：機器學習的解決方案
    3.3.4  比較兩種方案
  3.4  面向未來的準備
    3.4.1  圖形表示與數學表達
    3.4.2  模型的生命周期與持久化
  3.5  本章小結
    3.5.1  要點回顧
    3.5.2  常見面試問題
第4章  邏輯回歸：隱藏因子
  4.1  二元分類問題：是與否
    4.1.1  線性回歸：為何失效
    4.1.2  窗口效應：看不見的才是關鍵

    4.1.3  邏輯分佈
    4.1.4  似然函數：統計分析的參數估計
    4.1.5  損失函數：機器學習的參數估計
    4.1.6  最終預測：從概率到類別
  4.2  模型實現
    4.2.1  初步分析數據：直觀印象
    4.2.2  搭建模型
    4.2.3  理解模型結果
  4.3  評估模型效果
    4.3.1  查准率與查全率
    4.3.2  F-score
    4.3.3  ROC空間
    4.3.4  ROC曲線與AUC
    4.3.5  AUC的概率解釋
  4.4  非均衡數據集
    4.4.1  準確度悖論
    4.4.2  模型效果影響
    4.4.3  解決方案
  4.5  多元分類問題：超越是與否
    4.5.1  多元邏輯回歸
    4.5.2  One-vs.-All：從二元到多元
    4.5.3  模型實現
  4.6  本章小結
    4.6.1  要點回顧
    4.6.2  常見面試問題
第5章  計量經濟學的啟示：他山之石
  5.1  定量與定性：特徵的數學運算合理嗎
  5.2  定性特徵的處理
    5.2.1  虛擬變數
    5.2.2  定性特徵轉換為定量特徵
  5.3  定量特徵的處理
    5.3.1  定量特徵轉換為定性特徵
    5.3.2  基於卡方檢驗的方法
  5.4  多重共線性：多變數的煩惱
    5.4.1  多重共線性效應
    5.4.2  檢測多重共線性
    5.4.3  解決方法
    5.4.4  虛擬變數陷阱
  5.5  本章小結
    5.5.1  要點回顧
    5.5.2  常見面試問題
第6章  最優化演算法：參數估計
  6.1  演算法思路：模擬滾動
  6.2  梯度下降法
    6.2.1  演算法使用的竅門
    6.2.2  演算法的局限性：局部最優與鞍點
  6.3  梯度下降法的代碼實現
    6.3.1  PyTorch基礎
    6.3.2  利用PyTorch的封裝函數
  6.4  隨機梯度下降法：更優化的演算法

    6.4.1  演算法細節
    6.4.2  代碼實現
    6.4.3  進一步優化
  6.5  本章小結
    6.5.1  要點回顧
    6.5.2  常見面試問題
第7章  反向傳播：神經網路的工程基礎
  7.1  計算圖和向前傳播
    7.1.1  什麼是計算圖
    7.1.2  代碼實現
  7.2  鏈式法則和反向傳播
    7.2.1  拓撲排序
    7.2.2  代碼實現
    7.2.3  梯度傳播過程
  7.3  參數估計的全流程
    7.3.1  隨機梯度下降法回顧
    7.3.2  計算圖膨脹
  7.4  動態優化
    7.4.1  梯度累積
    7.4.2  參數凍結
    7.4.3  隨機失活
  7.5  真實世界：針對大規模模型的優化技巧
    7.5.1  GPU計算
    7.5.2  混合精度訓練
    7.5.3  梯度檢查點
    7.5.4  分散式計算
  7.6  本章小結
    7.6.1  要點回顧
    7.6.2  常見面試問題
第8章  多層感知器：神經網路的「創世記」
  8.1  感知器模型
    8.1.1  神經元的數字孿生
    8.1.2  圖示與計算圖
    8.1.3  Sigmoid感知器與邏輯回歸
    8.1.4  Softmax函數
  8.2  從神經網路的視角重新理解邏輯回歸
    8.2.1  回顧窗口效應
    8.2.2  代碼實現
    8.2.3  損失函數為模型注入靈魂
    8.2.4  神經網路的建模文化：搭積木
  8.3  多層感知器
    8.3.1  圖形表示
    8.3.2  數學基礎
    8.3.3  令人驚訝的通用性
    8.3.4  代碼實現
    8.3.5  模型的聯結主義
  8.4  訓練優化的關鍵：激活函數
    8.4.1  壞死的神經細胞
    8.4.2  數學基礎
    8.4.3  監控模型訓練

    8.4.4  不穩定的梯度
    8.4.5  激活函數的改進
  8.5  從第一步開始優化訓練
    8.5.1  模型損失的預估
    8.5.2  參數初始化的初步優化
    8.5.3  參數初始化的進一步優化
    8.5.4  歸一化層
  8.6  本章小結
    8.6.1  要點回顧
    8.6.2  常見面試問題
第9章  卷積神經網路：深度學習的「出埃及記」
  9.1  利用多層感知器識別數字
    9.1.1  視覺對象的數字化
    9.1.2  搭建模型
    9.1.3  代碼實現
    9.1.4  防止過擬合之隨機失活
    9.1.5  防止過擬合之懲罰項
  9.2  卷積神經網路
    9.2.1  神經元的組織方式
    9.2.2  卷積層的網路結構
    9.2.3  卷積層的細節處理與代碼實現
    9.2.4  池化層
    9.2.5  完整結構與實現
    9.2.6  超越圖像識別
  9.3  殘差網路
    9.3.1  殘差連接
    9.3.2  實現要點和小竅門
    9.3.3  代碼實現
  9.4  本章小結
    9.4.1  要點回顧
    9.4.2  常見面試問題
第10章  循環神經網路：嘗試理解人類語言
  10.1  自然語言處理的基本要素
    10.1.1  語言數字化
    10.1.2  分詞器的語言基礎
    10.1.3  英文分詞器
    10.1.4  中文分詞的挑戰
    10.1.5  學習框架：遷移學習
  10.2  利用多層感知器學習語言
    10.2.1  數據準備
    10.2.2  文本嵌入
    10.2.3  代碼實現
    10.2.4  普通神經網路的缺陷
  10.3  循環神經網路
    10.3.1  圖示與結構
    10.3.2  模型的關鍵：隱藏狀態
    10.3.3  利用循環神經網路學習語言
    10.3.4  模型訓練與文本生成
    10.3.5  模型的學習原理：通過時間的反向傳播
  10.4  深度循環神經網路

    10.4.1  更優雅的代碼實現
    10.4.2  批量序列數據的處理
    10.4.3  從單層走向更複雜的結構
    10.4.4  利用深度循環神經網路學習語言
  10.5  長短期記憶網路
    10.5.1  短期記憶
    10.5.2  模型結構
    10.5.3  代碼實現
    10.5.4  利用長短期記憶網路學習語言
  10.6  本章小結
    10.6.1  要點回顧
    10.6.2  常見面試問題
第11章  大語言模型：是通用人工智慧的開始嗎
  11.1  注意力機制
    11.1.1  設計初衷
    11.1.2  改進后的注意力機制
    11.1.3  數學細節與實現技巧
  11.2  從零開始實現GPT
    11.2.1  模型結構
    11.2.2  多頭單向注意力
    11.2.3  解碼塊
    11.2.4  GPT-2的完整結構與重現
    11.2.5  Python語言學習任務
  11.3  從大語言模型到智能助手
    11.3.1  大語言模型的現狀
    11.3.2  開源模型
    11.3.3  從GPT到ChatGPT
    11.3.4  提示工程
    11.3.5  檢索增強生成
  11.4  模型微調
    11.4.1  模型微調的4種模式
    11.4.2  高效調參概述
    11.4.3  高效調參之增加模型組件
    11.4.4  高效調參之LoRA
  11.5  監督微調和評分建模
    11.5.1  監督微調初體驗
    11.5.2  更優化的監督微調
    11.5.3  評分建模
    11.5.4  如果重新構建ChatGPT
  11.6  超越技術
    11.6.1  智能的哲學基礎
    11.6.2  血汗工廠
    11.6.3  碳足跡
  11.7  本章小結
    11.7.1  要點回顧
    11.7.2  常見面試問題
第12章  強化學習：在動態交互中進化
  12.1  大語言模型的持續優化
    12.1.1  最大化評分：直觀但錯誤的模型
    12.1.2  為什麼行不通：不可微的運算

    12.1.3  可行的建模方式：調整損失函數
  12.2  強化學習簡介
    12.2.1  核心概念
    12.2.2  目標定義
    12.2.3  兩種解決方法
  12.3  值函數學習
    12.3.1  MC學習
    12.3.2  貝爾曼方程與TD學習
    12.3.3  利用神經網路進行學習
    12.3.4  n步TD學習與優勢函數
    12.3.5  TD Lambda學習與GAE
  12.4  策略學習
    12.4.1  策略梯度定理
    12.4.2  Reinforce演算法
    12.4.3  基準線演算法
    12.4.4  A2C演算法
  12.5  利用PPO優化大語言模型
    12.5.1  損失函數與參數更新
    12.5.2  從A2C到PPO
    12.5.3  微調遊戲獎勵
    12.5.4  代碼實現
  12.6  本章小結
    12.6.1  要點回顧
    12.6.2  常見面試問題
第13章  其他經典模型：擴展視野
  13.1  決策樹
    13.1.1  決策規則
    13.1.2  評判標準
    13.1.3  決策樹的預測與模型的聯結
    13.1.4  剪枝
  13.2  樹的集成
    13.2.1  隨機森林
    13.2.2  梯度提升決策樹
  13.3  隱馬爾可夫模型
    13.3.1  一個簡單的例子
    13.3.2  馬爾可夫鏈
    13.3.3  模型架構
    13.3.4  股票市場的應用
  13.4  聚類與降維
    13.4.1  經典聚類模型K-Means
    13.4.2  如何選擇聚類個數
    13.4.3  經典降維模型主成分分析
  13.5  奇異值分解
    13.5.1  數學定義
    13.5.2  截斷奇異值分解
    13.5.3  潛在語義分析
    13.5.4  大型推薦系統
  13.6  本章小結
    13.6.1  要點回顧
    13.6.2  常見面試問題

同類熱銷排行榜

最近瀏覽的商品

解構大語言模型(從線性回歸到通用人工智慧)