幫助中心 | 我的帳號 | 關於我們

DeepSeek核心技術揭秘

  • 作者:盧菁//戴志仕|責編:潘昕
  • 出版社:電子工業
  • ISBN:9787121501241
  • 出版日期:2025/05/01
  • 裝幀:平裝
  • 頁數:154
人民幣:RMB 79 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書深入剖析DeepSeek的核心技術,介紹了提示詞的原理與高級應用,對DeepSeek的模型架構、訓練框架,以及MoE優化、MLA、思維鏈、GRPO演算法、獎勵模型等技術細節進行了探討。此外,本書對DeepSeek給人工智慧行業格局帶來的影響及DeepSeek的開源貢獻進行了分析,對大模型的發展趨勢進行了展望。
    本書適合人工智慧研究人員、開發人員及大模型相關技術愛好者閱讀,也為關注人工智慧領域技術發展的從業人員提供了參考與借鑒。

作者介紹
盧菁//戴志仕|責編:潘昕

目錄
第1章  技驚四座的DeepSeek
  1.1  石破天驚的產品發布
  1.2  DeepSeek-V3和DeepSeek-R1可以做什麼
  1.3  DeepSeek-V3的技術突破與創新
    1.3.1  架構創新
    1.3.2  訓練優化
    1.3.3  推理與部署優化
    1.3.4  效果的全面提升
  1.4  DeepSeek-R系列的技術突破與創新
    1.4.1  DeepSeek-R1-Zero的技術突破與創新
    1.4.2  DeepSeek-R1的技術突破與創新
    1.4.3  推理能力的提升
  1.5  DeepSeek發布的模型家族
    1.5.1  通用語言大模型
    1.5.2  多模態大模型
    1.5.3  代碼大模型
    1.5.4  數學推理大模型
    1.5.5  混合專家模型
    1.5.6  MoE專用微調模型
    1.5.7  基於LLaMA架構的模型
第2章  提示詞的原理與應用
  2.1  推理模型與通用模型
  2.2  提示工程
    2.2.1  提示詞的類型
    2.2.2  提示詞的基本元素
    2.2.3  有效的提示詞
    2.2.4  正確地表達需求
  2.3  提示詞高級技巧:提示詞鏈
    2.3.1  提示詞鏈的設計過程
    2.3.2  提示詞鏈的應用案例
第3章  DeepSeek-V3技術剖析
  3.1  DeepSeek的模型架構
    3.1.1  MoE的起源與發展
    3.1.2  DeepSeek-V3的MoE優化
    3.1.3  DeepSeek-V3的MoE架構的優勢
    3.1.4  DeepSeek-V3的MLA
    3.1.5  DeepSeek-V3的MTP
  3.2  DeepSeek的訓練框架
    3.2.1  常見的並行策略
    3.2.2  DeepSeek的並行策略
    3.2.3  DeepSeek的FP8混合精度訓練
  3.3  DeepSeek的推理階段優化
    3.3.1  PD分離架構
    3.3.2  DeepSeek的預填充階段優化
    3.3.3  DeepSeek的解碼階段優化
  3.4  DeepSeek的后訓練優化
  3.5  小結
第4章  DeepSeek-R1技術剖析
  4.1  預備知識
    4.1.1  思維鏈

    4.1.2  有監督微調
    4.1.3  強化學習
  4.2  DeepSeek對訓練推理模型的探索
  4.3  DeepSeek-R1-Zero的訓練
    4.3.1  GRPO演算法
    4.3.2  獎勵模型
  4.4  DeepSeek-R1的訓練
    4.4.1  階段一訓練
    4.4.2  階段二訓練
    4.4.3  推理能力的蒸餾
  4.5  小結
第5章  DeepSeek的影響與成功啟示
  5.1  DeepSeek對AI格局的影響
    5.1.1  打破硬體依賴的迷思
    5.1.2  對英偉達CUDA護城河的衝擊
    5.1.3  對大模型技術路線的重新思考
    5.1.4  投資風向的改變
    5.1.5  對商業模式的衝擊
    5.1.6  對創新文化的衝擊
    5.1.7  對地緣政治的衝擊
  5.2  DeepSeek的成功啟示
    5.2.1  領導者的技術直覺
    5.2.2  長期主義
    5.2.3  極致的工程優化
    5.2.4  對資源的高效利用
    5.2.5  團隊的創新文化
第6章  DeepSeek開源技術剖析
  6.1  DeepSeek的「開源周」
  6.2  FlashMLA:減少顯存消耗
    6.2.1  項目特點
    6.2.2  應用場景
    6.2.3  技術剖析
    6.2.4  影響與展望
  6.3  DeepEP:通信系統的優化
    6.3.1  項目特點
    6.3.2  應用場景
    6.3.3  技術剖析
    6.3.4  影響與展望
  6.4  DeepGEMM:讓矩陣乘法起飛
    6.4.1  項目特點
    6.4.2  應用場景
    6.4.3  技術剖析
    6.4.4  影響與展望
  6.5  DualPipe與EPLB:集群並行計算優化
    6.5.1  項目特點
    6.5.2  技術剖析
    6.5.3  影響與展望
  6.63  FS:為AI加速
    6.6.1  項目特點
    6.6.2  應用場景

    6.6.3  技術剖析
    6.6.4  影響與展望
第7章  大模型未來發展展望
  7.1  MoE的未來
    7.1.1  專家數量與規模的優化
    7.1.2  MoE分散式訓練工具進一步完善
    7.1.3  門控演算法的改進
    7.1.4  跨領域應用與融合
  7.2  MLA的未來
  7.3  大模型訓練方法的發展趨勢
    7.3.1  三階段訓練法的普及
    7.3.2  混合精度訓練的推廣
    7.3.3  並行策略的優化
  7.4  推理部署的發展趨勢
    7.4.1  PD分離模式的普及
    7.4.2  集群化推理的優化與推理加速技術研究
  7.5  GPU硬體的未來發展
    7.5.1  軟硬體協同升級
    7.5.2  存儲與通信能力的優化
    7.5.3  低精度計算的支持
    7.5.4  異構計算的支持
  7.6  從LLaMA4看推理模型的發展
    7.6.1  LLaMA4簡介
    7.6.2  LLaMA4的核心技術細節

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032