幫助中心 | 我的帳號 | 關於我們

大語言模型(原理應用與優化)/智能系統與技術叢書

  • 作者:蘇之陽//王錦鵬//姜迪//宋元峰|責編:楊福川//陳潔
  • 出版社:機械工業
  • ISBN:9787111762768
  • 出版日期:2024/09/01
  • 裝幀:平裝
  • 頁數:245
人民幣:RMB 89 元      售價:
放入購物車
加入收藏夾

內容大鋼
    這是一本從工程化角度講解大語言模型的核心技術、構建方法與前沿應用的著作。首先從語言模型的原理和大模型的基礎構件入手,詳細梳理了大模型技術的發展脈絡,深入探討了大模型預訓練與對齊的方法;然後闡明了大模型訓練中的演算法設計、數據處理和分散式訓練的核心原理,展示了這一系統性工程的複雜性與實現路徑。
    除了基座模型的訓練方案,本書還涵蓋了大模型在各領域的落地應用方法,包括低參數量微調、知識融合、工具使用和自主智能體等,展示了大模型在提高生產力和創造性任務中的卓越性能和創新潛力。此外,書中進一步介紹了大模型優化的高級話題和前沿技術,如模型小型化、推理能力和多模態大模型等。最後,本書討論了大模型的局限性與安全性問題,展望了未來的發展方向,為讀者提供了全面的理解與前瞻性的視角。
    無論是人工智慧領域的研究員、工程師,還是對前沿技術充滿好奇的讀者,本書都將是您了解和掌握大模型技術的必備指南。

作者介紹
蘇之陽//王錦鵬//姜迪//宋元峰|責編:楊福川//陳潔

目錄
前言
第1章  語言模型簡介
  1.1  傳統語言模型
    1.1.1  n-gram語言模型
    1.1.2  神經網路語言模型
    1.1.3  傳統語言模型的應用
  1.2  大語言模型
    1.2.1  大模型的發展歷程
    1.2.2  訓練大模型的挑戰
    1.2.3  大模型的應用
  1.3  大模型實例
    1.3.1  基座模型實例
    1.3.2  對齊模型實例
  1.4  小結
第2章  大模型網路結構
  2.1  Seq2Seq結構
  2.2  注意力機制
  2.3  Transformer架構
    2.3.1  Transformer模型結構
    2.3.2  編碼器單元
    2.3.3  解碼器單元
    2.3.4  位置編碼
  2.4  詞元化
    2.4.1  BPE
    2.4.2  位元組級BPE
    2.4.3  WordPiece
    2.4.4  Unigram語言模型
    2.4.5  SentencePiece
  2.5  解碼策略
    2.5.1  貪心搜索
    2.5.2  集束搜索
    2.5.3  Top-k採樣
    2.5.4  核採樣
    2.5.5  溫度採樣
  2.6  小結
第3章  大模型學習範式的演進
  3.1  預訓練與微調的原理和典型模型
    3.1.1  預訓練與微調
    3.1.2  三個典型模型
  3.2  多任務學習的原理和典型模型
    3.2.1  多任務學習
    3.2.2  兩個典型模型
  3.3  大規模模型的能力
    3.3.1  少樣本學習
    3.3.2  提示學習
    3.3.3  上下文學習
  3.4  小結
第4章  大模型對齊訓練
  4.1  對齊
    4.1.1  對齊的定義

    4.1.2  對齊的衡量指標
  4.2  基於人類反饋的強化學習
    4.2.1  監督微調的原理
    4.2.2  訓練獎勵模型的原理
    4.2.3  強化學習的原理
  4.3  基於AI反饋的強化學習
  4.4  直接偏好優化
  4.5  超級對齊
  4.6  小結
第5章  大模型評測與數據集
  5.1  大模型評測方法
    5.1.1  人工評測
    5.1.2  自動評測
  5.2  大模型評測指標
    5.2.1  準確率、精確率、召回率與F1分數
    5.2.2  困惑度
    5.2.3  BLEU與ROUGE
    5.2.4  pass@k
  5.3  大模型能力評測基準
    5.3.1  MMLU
    5.3.2  GSM8K
    5.3.3  C-Eval
    5.3.4  HumanEval
  5.4  數據集及預處理方法
    5.4.1  預訓練數據集
    5.4.2  指令微調數據集
    5.4.3  人工反饋數據集
    5.4.4  數據預處理方法
  5.5  小結
第6章  分散式訓練與內存優化
  6.1  大模型擴展法則
  6.2  分散式訓練策略
    6.2.1  數據並行
    6.2.2  張量並行
    6.2.3  流水線並行
    6.2.4  混合併行
  6.3  大模型訓練中的不穩定現象
  6.4  分散式訓練集群架構
    6.4.1  中心化架構:參數伺服器
    6.4.2  去中心化架構:集合
通信
  6.5  內存優化策略
    6.5.1  混合精度訓練
    6.5.2  梯度檢查點
    6.5.3  梯度累積
    6.5.4  FlashAttention
  6.6  分散式訓練框架
  6.7  小結
第7章  大模型的垂直場景適配方案
  7.1  從零開始訓練新模型

  7.2  全量參數微調
  7.3  低參數量微調
    7.3.1  適配器方法
    7.3.2  提示詞微調
    7.3.3  前綴微調
    7.3.4  LoRA
  7.4  超低參數量微調的探索
  7.5  小結
第8章  知識融合與工具使用
  8.1  知識融合
    8.1.1  檢索增強生成
    8.1.2  解碼器融合
    8.1.3  提示融合
  8.2  工具使用
    8.2.1  WebGPT
    8.2.2  LaMDA
    8.2.3  Toolformer
  8.3  自主智能體
    8.3.1  自主智能體的組件
    8.3.2  自主智能體的工作流程
  8.4  小結
第9章  大模型的進階優化
  9.1  模型小型化
    9.1.1  模型量化
    9.1.2  知識蒸餾
    9.1.3  參數剪枝
  9.2  推理能力及其延伸
    9.2.1  思維鏈
    9.2.2  零樣本思維鏈
    9.2.3  最少到最多提示
    9.2.4  ReAct:推理能力行動能力
  9.3  代碼生成
    9.3.1  Codex
    9.3.2  代碼生成的要素
  9.4  多模態大模型
    9.4.1  BEiT-3
    9.4.2  CLIP
    9.4.3  Flamingo
    9.4.4  MiniGPT-4
  9.5  高質量數據的作用與構建
    9.5.1  LIMA
    9.5.2  教科書級數據
  9.6  模型能力「湧現」的原因
  9.7  小結
第10章  大模型的局限性與未來發展方向
  10.1  大模型的局限性
    10.1.1  事實性錯誤
    10.1.2  理解和推理缺陷
    10.1.3  知識更新問題
    10.1.4  安全性問題

    10.1.5  計算資源限制
  10.2  大模型的未來發展方向
    10.2.1  更強的記憶:從通用到個性化
    10.2.2  裝上「手腳」:賦予模型使用工具的能力
    10.2.3  多模態交互:穿越文本的邊界
  10.3  小結
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032