用戶名: 密碼:     註冊 幫助中心 | 我的帳號 | 關於我們

DeepSeek大模型高性能核心技術與多模態融合開發/人工智慧技術叢書

  • 作者:王曉華|責編:夏毓彥
  • 出版社:清華大學
  • ISBN:9787302684893
  • 出版日期:2025/03/01
  • 裝幀:平裝
  • 頁數:346
人民幣:RMB 119 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書深入剖析國產之光DeepSeek多模態大模型的核心技術,從高性能注意力機制切入,深入揭示DeepSeek的技術精髓與獨特優勢,詳細闡述其在人工智慧領域成功的技術秘訣。本書循序漸進地講解深度學習注意力機制的演進,從經典的多頭注意力(MHA)逐步深入DeepSeek的核心技術—多頭潛在注意力(MLA)與混合專家模型(MoE)。此外,本書還將詳細探討DeepSeek中的多模態融合策略、技術及應用實例,為讀者提供全面的理論指導與應用實踐。本書配套所有示例源碼、PPT課件、配圖PDF文件與讀者微信技術交流群。
    本書共分15章,內容涵蓋高性能注意力與多模態融合概述、PyTorch深度學習環境搭建、DeepSeek注意力機制詳解(包括基礎篇、進階篇、高級篇及調優篇)、在線與本地部署的DeepSeek實戰(如旅遊特種兵迪士尼大作戰、廣告文案撰寫與微調、智能客服等),以及多模態融合技術與實戰應用(如Diffusion可控圖像生成、多模態圖文理解與問答、交叉注意力語音轉換、端到端視頻分類等)。
    本書既適合DeepSeek核心技術初學者、注意力機制初學者、大模型應用開發人員、多模態融合開發人員、大模型研究人員,也適合高等院校及高職高專院校人工智慧大模型方向的師生。

作者介紹
王曉華|責編:夏毓彥
    王曉華,高校電腦專業講師,研究方向為雲計算、大數據與人工智慧。其著作包括《深入探索Mamba模型架構與應用》《PyTorch深度學習與電腦視覺實踐》《PyTorch語音識別實戰》《ChatGLM3大模型本地化部署、應用開發與微調》《從零開始大模型開發與微調:基於PyTorch與ChatGLM》《PyTorch 2.0深度學習從零開始學》《Spark 3.0大數據分析與挖掘:基於機器學習》《TensorFlow深度學習應用實踐》《OpenCV+TensorFlow深度學習與電腦視覺實戰》《TensorFlow語音識別實戰》《TensorFlow 2.0卷積神經網路實戰》《深度學習的數學原理與實現》。

目錄
第1章  高性能注意力與多模態融合
  1.1  從湧現到飛躍:高性能大模型的崛起
    1.1.1  大模型的「湧現」
    1.1.2  大模型的發展歷程
    1.1.3  高性能大模型的崛起
  1.2  大模型的內功:高性能注意力機制的崛起
    1.2.1  注意力機制的基本原理
    1.2.2  注意力機制的變革與發展
    1.2.3  高性能注意力機制崛起:GQA與MLA
  1.3  大模型的外拓:多模態融合
    1.3.1  多模態外拓及其挑戰
    1.3.2  融合策略與技術概覽
    1.3.3  深度學習在多模態融合中的應用場景
  1.4  高性能注意力與多模態融合的未來展望
    1.4.1  融合技術的創新方向
    1.4.2  注意力機制的前沿探索
  1.5  本章小結
第2章  PyTorch深度學習環境搭建
  2.1  安裝Python開發環境
    2.1.1  Miniconda的下載與安裝
    2.1.2  PyCharm的下0
    2.2.1  NVIDIA 10/20/30/40系列顯卡選擇的GPU版本
    2.2.2  PyTorch 2.0 GPU NVIDIA運行庫的安裝
    2.2.3  Hello PyTorch
  2.3  多模態大模型DeepSeek初探與使用
    2.3.1  DeepSeek模型簡介
    2.3.2  DeepSeek帶來的技術創新
    2.3.3  DeepSeek的第三方服務與使用示例
  2.4  本章小結
第3章  注意力機制詳解之基礎篇
  3.1  注意力機制與模型詳解
    3.1.1  注意力機制詳解
    3.1.2  自注意力(Self-Attention)機制
    3.1.3  自注意力的代碼實現
    3.1.4  ticks和Layer Normalization
    3.1.5  多頭自注意力
  3.2  注意力機制的應用實踐:編碼器
    3.2.1  自編碼器的總體架構
    3.2.2  回到輸入層:初始詞向量層和位置編碼器層
    3.2.3  前饋層的實現
    3.2.4  將多層模塊融合的TransformerBlock層
    3.2.5  編碼器的實現
  3.3  基礎篇實戰:自編碼架構的拼音漢字生成模型
    3.3.1  漢字拼音數據集處理
    3.3.2  搭建文本與向量的橋樑——Embedding
    3.3.3  自編碼模型的確定
    3.3.4  模型訓練部分的編寫
  3.4  本章小結
第4章  注意力機制詳解之進階篇
  4.1  注意力機制的第二種形態:自回歸架構

    4.1.1  自回歸架構重大突破:旋轉位置編碼
    4.1.2  添加旋轉位置編碼的注意力機制與現有庫包的實現
    4.1.3  新型的激活函數SwiGLU詳解
    4.1.4  「因果掩碼」與「錯位」輸入輸出格式詳解
  4.2  進階篇實戰1:無須位置表示的酒店評論情感判斷
    4.2.1  數據集的準備與讀取
    4.2.2  使用sentencepiece建立文本辭彙表
    4.2.3  編碼情感分類數據集
    4.2.4  基於新架構文本分類模型設計
    4.2.5  情感分類模型的訓練與驗證
  4.3  進階篇實戰2:基於自回歸模型的酒店評論生成
    4.3.1  數據集的準備與讀取
    4.3.2  基於自回歸文本生成模型的設計
    4.3.3  評論生成模型的訓練
    4.3.4  使用訓練好的模型生成評論
  4.4  本章小結
第5章  注意力機制詳解之高級篇
  5.1  替代前饋層的混合專家模型詳解
    5.1.1  混合專家模型的基本結構
    5.1.2  混合專家模型中的「專家」與「調控」代碼實現
  5.2  高級篇實戰1:基於混合專家模型的情感分類實戰
    5.2.1  基於混合專家模型的MoE評論情感分類實戰
    5.2.2  混合專家模型中負載平衡的實現
    5.2.3  修正後的MoE門控函數
  5.3  帶有MoE的注意力模型
    5.3.1  注意力機制中的前饋層不足
    5.3.2  MoE天然可作為前饋層
    5.3.3  結合MoE的注意力機制
  5.4  高級篇實戰2:基於通道注意力的圖像分類
    5.4.1  數據集的準備
    5.4.2  圖像識別模型的設計
    5.4.3  結合通道注意力圖像分類模型
    5.4.4  圖像識別模型SENet的訓練與驗證
  5.5  高級篇實戰3:基於MoE與自注意力的圖像分類
    5.5.1  基於注意力機制的ViT模型
    5.5.2  Patch和Position Embedding
    5.5.3  可視化的V-MoE詳解
    5.5.4  V-MoE模型的實現
    5.5.5  基於圖像識別模型V-MoE的訓練與驗證
    5.5.6  使用已有的庫包實現MoE
  5.6  本章小結
第6章  注意力機制詳解之調優篇
  6.1  注意力模型優化方案講解
    6.1.1  注意力模型優化1:MQA模型
    6.1.2  注意力模型優化2:MLA模型
    6.1.3  注意力模型優化3:GQA模型
    6.1.4  注意力模型優化4:差分注意力模型
  6.2  調優篇實戰1:基於MLA的人類語音情感分類
    6.2.1  情緒數據的獲取與標籤的說明
    6.2.2  情緒數據集的讀取

    6.2.3  語音情感分類模型的設計和訓練
  6.3  本章小結
第7章  旅遊特種兵迪士尼大作戰:DeepSeek API調用與高精準路徑優化
  7.1  基於在線API的大模型調用
    7.1.1  DeepSeek的註冊與API獲取
    7.1.2  帶有特定格式的DeepSeek的API調用
    7.1.3  帶有約束的DeepSeek的API調用
  7.2  智能化DeepSeek工具調用詳解
    7.2.1  Python使用工具的基本原理
    7.2.2  在DeepSeek中智能地使用工具
    7.2.3  在DeepSeek中選擇性地使用工具
    7.2.4  DeepSeek工具調用判定依據
  7.3  旅遊特種兵迪士尼大作戰:DeepSeek高精準路徑優化
    7.3.1  遊樂場數據的準備
    7.3.2  普通大模型的迪士尼遊玩求解攻略
    7.3.3  基於動態規劃演算法的迪士尼遊玩求解攻略
    7.3.4  基於DeepSeek的旅遊特種兵迪士尼大作戰
  7.4  本章小結
第8章  廣告文案撰寫實戰:多模態DeepSeek本地化部署與微調
  8.1  多模態DeepSeek-VL2本地化部署與使用
    8.1.1  Linux版本DeepSeek-VL2代碼下載與圖像問答
    8.1.2  Windows版本DeepSeek-VL2代碼下載
  8.2  廣告文案撰寫實戰1:PEFT與LoRA詳解
    8.2.1  微調的目的:讓生成的結果更聚焦于任務目標
    8.2.2  微調經典方法LoRA詳解
    8.2.3  適配DeepSeek微調的輔助庫PEFT詳解
  8.3  廣告文案撰寫實戰2:本地化DeepSeek-VL2微調
    8.3.1  數據的準備
    8.3.2  微調模型的訓練
    8.3.3  微調模型的使用與推斷
  8.4  本章小結
第9章  注意力與特徵融合範式1:Diffusion可控圖像生成
  9.1  Diffusion生成模型精講
    9.1.1  Diffusion Model的精講
    9.1.2  直接運行的經典DDPM的模型訓練實戰
    9.1.3  DDPM的模型基本模塊說明
    9.1.4  DDPM加噪與去噪詳解:結合成功運行的擴散模型代碼
    9.1.5  DDPM的損失函數:結合成功運行的Diffusion Model代碼
  9.2  可控圖像生成實戰:融合特徵的注意力機制
    9.2.1  擴散模型可控生成的基礎:特徵融合
    9.2.2  注意力MQA中的可控特徵融合
    9.2.3  基於注意力的擴散模型的設計
    9.2.4  圖像的加噪與模型訓練
    9.2.5  基於注意力模型的可控圖像生成
  9.3  本章小結
第10章  注意力與特徵融合範式2:多模態圖文理解與問答
  10.1  多模態圖文問答實戰
    10.1.1  一種新的多模態融合方案
    10.1.2  數據集的設計與使用
    10.1.3  多模態融合數據集的訓練

    10.1.4  多模態圖文問答的預測
  10.2  更多的多模態融合方案
    10.2.1  一種截斷的多模態融合方案
    10.2.2  截斷後多模態模型的訓練與預測
    10.2.3  一種加法基礎的多模態融合方案
  10.3  本章小結
第11章  注意力與特徵融合範式3:交叉注意力語音轉換
  11.1  端到端語音識別任務簡介
    11.1.1  端到端的語音識別
    11.1.2  中文語音文本數據集說明
  11.2  端到端音頻特徵提取庫librosa的使用
    11.2.1  音頻信號的基本讀取方法
    11.2.2  多特徵音頻抽取
  11.3  端到端語音識別任務簡介
    11.3.1  全中文音頻數據集的準備
    11.3.2  音頻特徵的提取與融合
    11.3.3  基於生成模型的端到端語音識別任務
    11.3.4  端到端語音識別任務的訓練與預測
  11.4  基於PyTorch的數據處理與音頻特徵融合
    11.4.1  THCHS30數據集的處理
    11.4.2  基於torchaudio的音頻預處理
    11.4.3  基於不同角度的音頻特徵獲取和簡單融合
    11.4.4  關於特徵融合的講解
  11.5  用於特徵融合的交叉注意力
    11.5.1  交叉注意力詳解
    11.5.2  帶有掩碼的交叉注意力
    11.5.3  完整的帶有掩碼的交叉注意力端到端語音識別
    11.5.4  基於交叉注意力的端到端語音識別的訓練與預測
    11.5.5  基於連接concat的端到端語音識別模型
  11.6  本章小結
第12章  多模態特徵token壓縮
  12.1  圖像特徵壓縮的多種實現
    12.1.1  Pixel-Shuffle的token壓縮
    12.1.2  Cross-layer Token Fusion壓縮
    12.1.3  AvgPool的token壓縮
  12.2  基於AvgPool與自編碼器的語音識別
    12.2.1  修改後的AvgPool函數
    12.2.2  自編碼器語音識別模型1:數據準備
    12.2.3  自編碼器語音識別模型2:模型設計
    12.2.4  自編碼器語音識別模型3:模型的訓練與預測
  12.3  本章小結
第13章  從二維到一維:圖像編碼器詳解與圖形重建實戰
  13.1  圖像編碼器
    13.1.1  從自然語言處理講起
    13.1.2  圖像的編碼與解碼VQ-VAE
    13.1.3  為什麼VQ-VAE採用離散向量
    13.1.4  VQ-VAE的核心實現
  13.2  基於VQ-VAE的手寫體生成
    13.2.1  圖像的準備與超參數設置
    13.2.2  VQ-VAE的編碼器與解碼器

    13.2.3  VQ-VAE的模型設計
    13.2.4  VQ-VAE的訓練與預測
    13.2.5  獲取編碼后的離散token
  13.3  基於FSQ的人臉生成
    13.3.1  FSQ演算法簡介與實現
    13.3.2  人臉數據集的準備
    13.3.3  基於FSQ的人臉重建方案
    13.3.4  基於FSQ的人臉輸出與離散token
  13.4  基於FSQ演算法的語音存儲
    13.4.1  無監督條件下的語音存儲
    13.4.2  可作為密碼機的離散條件下的語音識別
  13.5  本章小結
第14章  基於PyTorch的端到端視頻分類實戰
  14.1  視頻分類數據集的準備
    14.1.1  HMDB51數據集的準備
    14.1.2  視頻抽幀的處理
    14.1.3  基於PyTorch的數據輸入
  14.2  注意力視頻分類實戰
    14.2.1  對於視頻的Embedding編碼器
    14.2.2  視頻分類模型的設計
    14.2.3  視頻分類模型的訓練與驗證
  14.3  使用預訓練模型的視頻分類
    14.3.1  torchvision簡介
    14.3.2  基於torchvision的端到端視頻分類實戰
  14.4  本章小結
第15章  基於DeepSeek的跨平台智能客服開發實戰
  15.1  智能客服的設計與基本實現
    15.1.1  智能客服搭建思路
    15.1.2  商品介紹數據的格式與說明
    15.1.3  基於DeepSeek的智能客服設計
  15.2  帶有跨平台客戶端的智能客服開發實戰
    15.2.1  跨平台客戶端Gradio使用詳解
    15.2.2  一個簡單的Gradio示例
    15.2.3  基於DeepSeek的跨平台智能客服實現
  15.3  本章小結

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032