幫助中心 | 我的帳號 | 關於我們

圖解大模型底層邏輯(大模型是怎麼跑起來的)/人工智慧與人類未來叢書

  • 作者:張治政|責編:劉雲//姜寶雪
  • 出版社:北京大學
  • ISBN:9787301369630
  • 出版日期:2026/04/01
  • 裝幀:平裝
  • 頁數:396
人民幣:RMB 159 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書分為兩大部分,從理論到實踐、從基礎原理到前沿技術,全方位解析了大模型的構建、訓練、部署與應用的整個流程。第一部分介紹大模型的基礎概念,包括大模型的定義、發展歷程和構建所需的軟硬體技術棧,重點講解神經網路、訓練優化及模型調優的基本原理。第二部分聚焦大模型的內在邏輯和實際應用,涵蓋推理、記憶、數據管道、多模態處理、硬體加速以及部署與維護等,同時以基於MoE的DeepSeek多模態大模型為案例,展示從項目架構設計到在線服務的全流程。全書內容嚴謹而生動,既涵蓋了大模型開發的全流程技術細節,又不乏對大模型歷史演變和未來趨勢的前瞻性探討,是探索大模型底層邏輯與實現技術的權威指南。
    本書適合具備Python基礎開發能力並希望進一步深入學習大模型開發、模型優化和部署應用的讀者;同時,對於證券、保險、銀行等行業的從業人員以及高校師生來說,也是一本兼具理論深度與實戰指導的理想參考書和教學輔導材料。

作者介紹
張治政|責編:劉雲//姜寶雪

目錄
第1章  大模型介紹
  1.1  什麼是大模型
    1.1.1  大模型的第一印象
    1.1.2  大模型的主要特點
  1.2  大模型的發展歷程
    1.2.1  早期探索階段
    1.2.2  深度學習的興起
    1.2.3  Transformer架構的出現與普及
    1.2.4  大規模預訓練模型的爆發
    1.2.5  跨模態與多模態融合
  1.3  大模型的應用領域
第2章  大模型開發技術棧
  2.1  軟體技術棧:構建大模型的「軟體基石」
    2.1.1  編程語言與開發工具
    2.1.2  機器學習框架與擴展庫
    2.1.3  分散式計算與並行技術
    2.1.4  模型部署與服務工具
  2.2  硬體技術棧:支持大模型的「計算引擎」
    2.2.1  GPU:大模型訓練的核心動力引擎
    2.2.2  專用AI加速晶元
    2.2.3  計算資源與集群架構
    2.2.4  內存與存儲
  2.3  軟體與硬體協同優化:讓大模型跑得更快
    2.3.1  訓練加速技術
    2.3.2  推理加速與部署優化
    2.3.3  能效優化與綠色AI
  2.4  大模型技術棧的未來趨勢:從算力到智力的突破
    2.4.1  硬體發展趨勢
    2.4.2  軟體技術突破
    2.4.3  算力共享與去中心化
第3章  大模型的構成
  3.1  神經網路:大模型的「神經元」
    3.1.1  神經網路的基本構成:模仿人類大腦
    3.1.2  神經元與層次結構:信息傳遞與處理的橋樑
    3.1.3  激活函數:神經元的「開關」與「決策器」
  3.2  學習與訓練:大模型的「成長」過程
    3.2.1  監督學習和無監督學習:模型的自我修煉
    3.2.2  強化學習:通過探索不斷優化
    3.2.3  訓練過程中的挑戰:過擬合與欠擬合的博弈
  3.3  優化與改進:讓大模型變得更聰明
    3.3.1  梯度下降與參數優化:高效的進化之路
    3.3.2  正則化與防止過擬合:避免模型過度「學習」
    3.3.3  自適應優化:讓大模型變得更加靈活
  3.4  模型調優與評估
    3.4.1  損失函數與精度評估:衡量模型的性能的「標尺」與「成績單」
    3.4.2  交叉驗證:確保模型的「全能」表現
    3.4.3  調優技巧:讓模型最大化發揮潛力
第4章  啟動大模型
  4.1  訓練大模型
    4.1.1  數據準備與預處理:大模型的「食糧」

    4.1.2  選擇合適的模型架構:如何決定模型的「大腦」?
    4.1.3  訓練演算法:模型從零開始的「修煉」
    4.1.4  訓練過程中的挑戰與解決方案:避免大模型「犯錯」
  4.2  大模型的推理
    4.2.1  推理與計算:模型思考的「秘密」
    4.2.2  生成與優化:讓答案更精準
    4.2.3  提升推理能力:從數據到智慧的跨越
第5章  機器學習
  5.1  機器學習的基本概念
    5.1.1  什麼是機器學習
    5.1.2  數據在機器學習中的角色
    5.1.3  機器學習的目標
  5.2  網路模型
    5.2.1  機器學習中的網路模型
    5.2.2  線性回歸模型
    5.2.3  邏輯回歸模型
    5.2.4  支持向量機模型
    5.2.5  決策樹模型
    5.2.6  隨機森林模型
    5.2.7  K近鄰演算法模型
  5.3  機器學習中的數學基礎
    5.3.1  概率論與統計學:讓模型讀懂「不確定性」
    5.3.2  線性代數:從數據到「形狀」的語言
    5.3.3  微積分:優化模型的「秘密武器」
    5.3.4  矩陣分解:複雜問題簡單化
第6章  深度學習
  6.1  深度學習的起源與發展
    6.1.1  早期的人工神經網路與感知機
    6.1.2  深度學習的突破:多層感知機與反向傳播
    6.1.3  深度學習的黃金時代:卷積神經網路與突破
  6.2  神經網路
    6.2.1  神經網路的基本結構
    6.2.2  神經網路的前向傳播與反向傳播
    6.2.3  神經網路的訓練過程
  6.3  激活函數與損失函數
    6.3.1  激活函數的作用與種類
    6.3.2  損失函數的作用與類型
    6.3.3  激活函數與損失函數的結合
  6.4  深度學習模型
    6.4.1  深度學習中的網路模型
    6.4.2  前饋神經網路
    6.4.3  卷積神經網路
    6.4.4  循環神經網路
    6.4.5  長短期記憶網路
    6.4.6  生成對抗網路
第7章  大模型的大腦
  7.1  大模型如何「思考」
    7.1.1  模型的推理與生成過程
    7.1.2  多模態能力的實現
    7.1.3  概率分佈與不確定性評估

  7.2  大模型的「記憶」與知識管理
    7.2.1  參數中的隱式記憶
    7.2.2  知識庫的集成與增強
    7.2.3  知識的更新與持續學習
  7.3  大模型的限制與改進方向
    7.3.1  計算資源的瓶頸
    7.3.2  模型的偏見與倫理問題
    7.3.3  通用模型與專用模型的平衡
第8章  數據管道
  8.1  數據收集:大模型的「食材」來源
    8.1.1  數據源的多樣性與獲取方法
    8.1.2  數據質量控制
    8.1.3  數據收集中的挑戰與解決方案
  8.2  數據處理:清洗、標注與增強
    8.2.1  數據清洗
    8.2.2  數據標注
    8.2.3  數據增強
    8.2.4  數據處理的挑戰與優化
  8.3  數據存儲與檢索
    8.3.1  數據存儲結構與選擇
    8.3.2  數據檢索與索引
    8.3.3  數據存儲與檢索的挑戰
第9章  大模型的語言能力
  9.1  編碼與解碼:大模型如何理解語言
    9.1.1  文本編碼:語言的「數字化翻譯」
    9.1.2  文本解碼:從數字到語言
    9.1.3  語言理解與生成中的挑戰
  9.2  圖像與聲音:大模型的「看」和「聽」
    9.2.1  圖像的語言化:視覺信息的編碼
    9.2.2  聲音的文本化:語音的編碼與生成
    9.2.3  跨模態信息處理中的挑戰
  9.3  多模態:大模型整合不同的信息
    9.3.1  模態融合:信息的統一表達
    9.3.2  多模態任務:多樣化的應用場景
    9.3.3  多模態模型的優化方向與未來發展
第10章  大模型的硬體加速
  10.1  硬體加速的基本原理
    10.1.1  計算資源的需求與挑戰
    10.1.2  硬體加速的核心理念
    10.1.3  從傳統計算到並行計算的飛躍
  10.2  主要硬體加速平台:為大模型鋪路
    10.2.1  GPU:圖形處理器的強大變身
    10.2.2  TPU:Google公司的專屬加速器
    10.2.3  FPGA與ASIC:定製化硬體的突破
    10.2.4  專用硬體與通用硬體的對比與選擇策略
  10.3  硬體架構優化:讓大模型「飛起來」
    10.3.1  模型並行與數據並行:跨越計算瓶頸
    10.3.2  內存優化與帶寬管理:解決數據傳輸瓶頸
    10.3.3  多層次加速架構:從晶元到系統的協同優化
  10.4  大模型訓練與推理的加速技術:加速背後的智慧

    10.4.1  混合精度訓練:高效利用計算資源
    10.4.2  分散式訓練:大規模模型的分散式加速
    10.4.3  自動化硬體優化:智能調度與資源管理
  10.5  FPGA加速器實戰項目:加速神經網路的搜索過程
    10.5.1  準備工作
    10.5.2  網路架構
    10.5.3  數據集準備
    10.5.4  準確率預測器
    10.5.5  在算術強度約束下進行搜索
    10.5.6  模型轉換與保存
第11章  大模型的部署與維護
  11.1  部署:讓大模型進入現實世界
    11.1.1  部署前的準備工作
    11.1.2  部署環境搭建與優化
    11.1.3  部署中的挑戰與解決方案
  11.2  維護:確保大模型的健康
    11.2.1  模型監控與反饋機制
    11.2.2  模型更新與迭代
    11.2.3  模型安全性與合規性
  11.3  Ollama本地部署實戰
    11.3.1  安裝Ollama
    11.3.2  在Ollama中部署DeepSeek模型
    11.3.3  LM Studio本地可視化部署
  11.4  大模型的遠程和雲端部署
    11.4.1  在阿里雲上部署ChatGLM3
    11.4.2  使用騰訊雲部署DeepSeek
第12章  基於混合專家實現的DeepSeek多模態大模型
  12.1  項目介紹
    12.1.1  模型架構的核心模塊
    12.1.2  技術創新與亮點
    12.1.3  模型訓練
  12.2  開源模型
  12.3  配置文件
  12.4  模型架構介紹
    12.4.1  模型配置
    12.4.2  多模態模型架構
    12.4.3  數據處理
    12.4.4  DeepSeek-VL2基本架構
    12.4.5  VIT模型
    12.4.6  DeepSeek-VL2總結
  12.5  模型部署和在線服務
    12.5.1  設置部署參數
    12.5.2  工具函數
    12.5.3  Gradio工具
    12.5.4  模板覆蓋與擴展
    12.5.5  Web前端
    12.5.6  模型推理
    12.5.7  圖文對話推理
  12.6  在線測試
    12.6.1  Web前端實現

    12.6.2  啟動Web測試

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032