幫助中心 | 我的帳號 | 關於我們

分散式機器學習模式

  • 作者:唐源|責編:王軍|譯者:梁豪
  • 出版社:清華大學
  • ISBN:9787302672265
  • 出版日期:2024/10/01
  • 裝幀:平裝
  • 頁數:216
人民幣:RMB 69.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    在現代分散式系統上部署機器學習應用時,我們逐漸將關注焦點轉向了可靠性、性能、安全性以及解決這些問題所帶來的運維挑戰。在這本深入指南中,Argo和Kubeflow的項目負責人Yuan Tang分享了將機器學習模型從單機環境遷移到複雜的分散式集群中的模式、示例和所積累的寶貴經驗。
    《分散式機器學習模式》將詳細介紹數十種設計和部署分散式機器學習系統的技術。你將使用各種模式解決如下問題:如何進行分散式模型訓練、如何應對突發的系統故障,以及如何部署動態的模型服務。本書為每種模式都配備了實際的案例分析,以及基於Kubernetes實現分散式模型訓練和彈性推理的完整項目。

作者介紹
唐源|責編:王軍|譯者:梁豪

目錄
第Ⅰ部分  基本概念和背景
  第1章  了解開發環境
    1.1  大規模機器學習
      1.1.1  不斷擴大的規模
      1.1.2  解決方案
    1.2  分散式系統
      1.2.1  分散式系統基本概念
      1.2.2  複雜性和模式
    1.3  分散式機器學習系統
      1.3.1  分散式機器學習系統基本概念
      1.3.2  類似的模式
      1.3.3  分散式機器學習系統的應用場景
      1.3.4  不適合使用分散式機器學習系統的場景
    1.4  本書涵蓋的內容
    1.5  本章小結
第Ⅱ部分  分散式機器學習系統模式
  第2章  數據攝取模式
    2.1  數據攝取的基本概念
    2.2  Fashion-MNIST數據集
    2.3  批處理模式
      2.3.1  問題:在內存有限的情況下對Fashion-MNIST數據集執行耗費資源的操作
      2.3.2  解決方案
      2.3.3  討論
      2.3.4  練習
    2.4  分片模式:在多台機器之間分割極大的數據集
      2.4.1  問題
      2.4.2  解決方案
      2.4.3  討論
      2.4.4  練習
    2.5  緩存模式
      2.5.1  問題:重新訪問之前使用過的數據以進行高效的多輪模型訓練
      2.5.2  解決方案
      2.5.3  討論
      2.5.4  練習
    2.6  習題答案
    2.7  本章小結
  第3章  分散式訓練模式
    3.1  分散式訓練的基本概念
    3.2  參數伺服器模式:800萬樣本的實體標記
      3.2.1  問題
      3.2.2  解決方案
      3.2.3  討論
      3.2.4  練習
    3.3  集合通信模式
      3.3.1  問題:當參數伺服器成為瓶頸時提高性能
      3.3.2  解決方案
      3.3.3  討論
      3.3.4  練習
    3.4  彈性與容錯模式
      3.4.1  問題:使用有限的計算資源處理訓練時的意外故障

      3.4.2  解決方案
      3.4.3  討論
      3.4.4  練習
    3.5  習題答案
    3.6  本章小結
  第4章  模型服務模式
    4.1  模型服務的基本概念
    4.2  副本服務模式:處理不斷增長的服務請求
      4.2.1  問題
      4.2.2  解決方案
      4.2.3  討論
      4.2.4  練習
    4.3  分片服務模式
      4.3.1  問題:處理包含高解析度視頻的大型模型服務請求
      4.3.2  解決方案
      4.3.3  討論
      4.3.4  練習
    4.4  事件驅動處理模式
      4.4.1  問題:基於事件響應模型服務請求
      4.4.2  解決方案
      4.4.3  討論
      4.4.4  練習
    4.5  習題答案
    4.6  本章小結
  第5章  工作流模式
    5.1  工作流的基本概念
    5.2  扇入和扇出模式:組成複雜的機器學習工作流
      5.2.1  問題
      5.2.2  解決方案
      5.2.3  討論
      5.2.4  練習
    5.3  同步和非同步模式:通過併發加速工作流
      5.3.1  問題
      5.3.2  解決方案
      5.3.3  討論
      5.3.4  練習
    5.4  步驟記憶化模式:通過使用緩存跳過重複冗余的步驟
      5.4.1  問題
      5.4.2  解決方案
      5.4.3  討論
      5.4.4  練習
    5.5  習題答案
    5.6  本章小結
  第6章  運維模式
    6.1  機器學習系統中運維的基本概念
    6.2  調度模式:在共享集群中有效分配資源
      6.2.1  問題
      6.2.2  解決方案
      6.2.3  討論
      6.2.4  練習

    6.3  元數據模式:合理處理故障,最小化對用戶的負面影響
      6.3.1  問題
      6.3.2  解決方案
      6.3.3  討論
      6.3.4  練習
    6.4  習題答案
    6.5  本章小結
第Ⅲ部分  構建分散式機器學習工作流
  第7章  項目概述及系統架構
    7.1  項目概況
      7.1.1  項目背景
      7.1.2  系統組件
    7.2  數據攝取
      7.2.1  問題
      7.2.2  解決方案
      7.2.3  練習
    7.3  模型訓練
      7.3.1  問題
      7.3.2  解決方案
      7.3.3  練習
    7.4  模型服務
      7.4.1  問題
      7.4.2  解決方案
      7.4.3  練習
    7.5  端到端工作流
      7.5.1  存在的問題
      7.5.2  解決方案
      7.5.3  練習
    7.6  習題答案
    7.7  本章小結
  第8章  相關技術概述
    8.1  TensorFlow:機器學習框架
      8.1.1  基礎知識
      8.1.2  練習
    8.2  Kubermetes:分散式容器編排系統
      8.2.1  基礎知識
      8.2.2  練習
    8.3  Kubeflow:在Kubernetes上運行機器學習工作負載
      8.3.1  基礎知識
      8.3.2  練習
    8.4  Argo Workflows:容器原生工作流引擎
      8.4.1  基礎知識
      8.4.2  練習
    8.5  習題答案
    8.6  本章小結
  第9章  完整實現
    9.1  數據攝取
      9.1.1  單節點數據流水線
      9.1.2  分散式數據流水線
    9.2  模型訓練

      9.2.1  模型定義和單節點訓練
      9.2.2  分散式模型訓練
      9.2.3  模型選擇
    9.3  模型服務
      9.3.1  單伺服器模型推理
      9.3.2  副本模型伺服器
    9.4  端到端工作流
      9.4.1  順序步驟
      9.4.2  步驟記憶化
    9.5  本章小結

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032