幫助中心 | 我的帳號 | 關於我們

Python分散式機器學習

  • 作者:(美)冠華·王|責編:賈小紅|譯者:姜大為
  • 出版社:清華大學
  • ISBN:9787302633112
  • 出版日期:2023/04/01
  • 裝幀:平裝
  • 頁數:215
人民幣:RMB 99 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書詳細闡述了與分散式機器學習相關的基本解決方案,主要包括拆分輸入數據、參數伺服器和All-Reduce、構建數據並行訓練和服務管道、瓶頸和解決方案、拆分模型、管道輸入和層拆分、實現模型並行訓練和服務工作流程、實現更高的吞吐量和更低的延遲、數據並行和模型並行的混合、聯合學習和邊緣設備、彈性模型訓練和服務、進一步加速的高級技術等內容。此外,本書還提供了相應的示例、代碼,以幫助讀者進一步理解相關方案的實現過程。
    本書適合作為高等院校電腦及相關專業的教材和教學參考書,也可作為相關開發人員的自學用書和參考手冊。

作者介紹
(美)冠華·王|責編:賈小紅|譯者:姜大為
    冠華·王(Guanhua Wang)是加州大學伯克利分校RISELab的電腦科學博士(導師為Ion Stoica教授)。他的研究主要集中在機器學習系統領域,包括快速集體通信、高效並行模型訓練和實時模型服務等,得到了學術界和工業界的廣泛關注。他曾受邀在頂級大學(麻省理工學院、斯坦福大學、卡內基梅隆大學和普林斯頓大學)和大型科技公司(Facebook/Meta和微軟)進行演講。他在香港科技大學獲得碩士學位,在中國東南大學獲得學士學位。他在無線網路方面還有一些很好的研究。他喜歡踢足球,並且曾在加州灣區跑過多次半程馬拉松。

目錄
第1篇  數據並行
  第1章  拆分輸入數據
    1.1  單節點訓練太慢
      1.1.1  數據載入帶寬和模型訓練帶寬之間的不匹配
      1.1.2  流行數據集的單節點訓練時間
      1.1.3  使用數據並行加速訓練過程
    1.2  數據並行
      1.2.1  隨機梯度下降
      1.2.2  模型同步
    1.3  超參數調優
      1.3.1  全局批次大小
      1.3.2  學習率調整
      1.3.3  模型同步方案
    1.4  小結
  第2章  參數伺服器和All-Reduce
    2.1  技術要求
    2.2  參數伺服器架構
      2.2.1  參數伺服器架構中的通信瓶頸
      2.2.2  在參數伺服器之間分片模型
    2.3  實現參數伺服器
      2.3.1  定義模型層
      2.3.2  定義參數伺服器
      2.3.3  定義工作節點
      2.3.4  在參數伺服器和工作節點之間傳遞數據
    2.4  參數伺服器的問題
      2.4.1  情況1——更多參數伺服器
      2.4.2  情況2——更多工作節點
      2.4.3  參數伺服器架構為從業者帶來了很高的編碼複雜度
    2.5  All-Reduce架構
      2.5.1  Reduce
      2.5.2  All-Reduce
      2.5.3  RingAll-Reduce
    2.6  集體通信
      2.6.1  Broadcast
      2.6.2  Gather
      2.6.3  All-Gather
    2.7  小結
  第3章  構建數據並行訓練和服務管道
    3.1  技術要求
    3.2  數據並行訓練管道概述
      3.2.1  輸入預處理
      3.2.2  輸入數據分區
      3.2.3  數據載入
      3.2.4  數據訓練
      3.2.5  模型同步
      3.2.6  模型更新
    3.3  單機多GPU和多機多GPU
      3.3.1  單機多GPU
      3.3.2  多機多GPU
    3.4  檢查點和容錯

      3.4.1  模型檢查點
      3.4.2  載入模型檢查點
    3.5  模型評估和超參數調優
    3.6  數據並行中的模型服務
    3.7  小結
  第4章  瓶頸和解決方案
    4.1  數據並行訓練中的通信瓶頸
      4.1.1  通信工作負載分析
      4.1.2  參數伺服器架構
      4.1.3  All-Reduce架構
      4.1.4  最新通信方案的效率問題
    4.2  利用空閑鏈路和主機資源
      4.2.1  TreeAll-Reduce
      4.2.2  通過PCIe和NVLink進行混合數據傳輸
    4.3  設備內存瓶頸
    4.4  重新計算和量化
      4.4.1  重新計算
      4.4.2  量化
    4.5  小結
第2篇  模型並行
  第5章  拆分模型
    5.1  技術要求
    5.2  單節點訓練錯誤——內存不足
      5.2.1  在單個GPU上微調BERT
      5.2.2  嘗試將一個巨型模型打包到單個GPU中
    5.3  ELMo、BERT和GPT
      5.3.1  基本概念
      5.3.2  循環神經網路
      5.3.3  ELMo
      5.3.4  BERT
      5.3.5  GPT
    5.4  預訓練和微調
    5.5  最先進的硬體
      5.5.1  P100、V100和DGX-
      5.5.2  NVLink
      5.5.3  A100和DGX-
      5.5.4  NVSwitch
    5.6  小結
  第6章  管道輸入和層拆分
    6.1  普通模型並行的低效問題
      6.1.1  前向傳播
      6.1.2  反向傳播
      6.1.3  前向傳播和反向傳播之間的GPU空閑時間
    6.2  管道輸入
    6.3  管道並行的優缺點
      6.3.1  管道並行的優勢
      6.3.2  管道並行的缺點
    6.4  層拆分
    6.5  關於層內模型並行的注意事項
    6.6  小結

  第7章  實現模型並行訓練和服務工作流程
    7.1  技術要求
    7.2  整個模型並行管道概述
      7.2.1  模型並行訓練概述
      7.2.2  實現模型並行訓練管道
      7.2.3  指定GPU之間的通信協議
      7.2.4  模型並行服務
    7.3  微調Transformer
    7.4  模型並行中的超參數調優
      7.4.1  平衡GPU之間的工作負載
      7.4.2  啟用/禁用管道並行
    7.5  NLP模型服務
    7.6  小結
  第8章  實現更高的吞吐量和更低的延遲
    8.1  技術要求
    8.2  凍結層
      8.2.1  在前向傳播期間凍結層
      8.2.2  在前向傳播期間降低計算成本
      8.2.3  在反向傳播期間凍結層
    8.3  探索內存和存儲資源
    8.4  了解模型分解和蒸餾
      8.4.1  模型分解
      8.4.2  模型蒸餾
    8.5  減少硬體中的位數
    8.6  小結
第3篇  高級並行範式
  第9章  數據並行和模型並行的混合
    9.1  技術要求
    9.2  Megatron-LM用例研究
      9.2.1  模型並行和層拆分
      9.2.2  按行試錯法
      9.2.3  按列試錯法
      9.2.4  跨機數據並行
    9.3  Megatron-LM的實現
    9.4  Mesh-TensorFlow用例研究
    9.5  Mesh-TensorFlow的實現
    9.6  Megatron-LM和Mesh-TensorFlow的比較
    9.7  小結
  第10章  聯合學習和邊緣設備
    10.1  技術要求
    10.2  共享知識而不共享數據
      10.2.1  傳統數據並行模型訓練範式
      10.2.2  工作節點之間沒有輸入共享
      10.2.3  在工作節點之間通信以同步梯度
    10.3  用例研究:TensorFlowFederated
    10.4  使用TinyML運行邊緣設備
    10.5  用例研究:TensorFlowLite
    10.6  小結
  第11章  彈性模型訓練和服務
    11.1  技術要求

    11.2  自適應模型訓練介紹
      11.2.1  傳統的數據並行訓練
      11.2.2  數據並行中的自適應模型訓練
      11.2.3  自適應模型訓練(基於All-Reduce)
      11.2.4  自適應模型訓練(基於參數伺服器)
      11.2.5  傳統的模型並行訓練範式
      11.2.6  模型並行中的自適應模型訓練
    11.3  在雲端實現自適應模型訓練
    11.4  模型推理中的彈性服務
    11.5  無伺服器
    11.6  小結
  第12章  進一步加速的高級技術
    12.1  技術要求
    12.2  調試和性能分析
      12.2.1  性能分析結果中的一般概念
      12.2.2  通信結果分析
      12.2.3  計算結果分析
    12.3  作業遷移和多路復用
      12.3.1  作業遷移
      12.3.2  作業多路復用
    12.4  異構環境中的模型訓練
    12.5  小結

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032