大模型時代的基礎架構(大模型算力中心建設指南全彩印刷)

作者：方天戟|責編:張國霞
出版社：電子工業
ISBN：9787121481239

出版日期：2024/07/01
裝幀：平裝
頁數：224

人民幣：RMB 128 元售價：元

內容大鋼

    大模型是近年來引人注目的熱點之一。大模型蓬勃發展的基礎，是針對其需求設計的算力及基礎架構。本書針對如何為大模型構建基礎架構進行深入講解，並基於TOGAF方法論，剖析業界知名案例的設計方案。
    全書總計13章。第1章講解AI與大模型時代對基礎架構的需求；第2章講解軟體程序與專用硬體的結合，涉及GPU並行運算庫、機器學習程序的開發框架和分散式AI訓練；第3章剖析GPU的硬體架構，涉及GPU的總體設計、Nvidia GH100晶元架構和擁有其他Hopper架構的GPU；第4章講解GPU伺服器的設計與實現；第5章講解機器學習所依托的I/O框架體系；第6章講解GPU集群的網路設計與實現；第7章講解GPU板卡算力調度技術；第8章講解GPU虛擬化調度方案；第9章講解GPU集群的網路虛擬化設計與實現；第10章講解GPU集群的存儲設計與實現；第11章講解如何基於雲原生技術為機器學習應用設計與實現更好的開發和運行平台；第12章講解基於雲平台的GPU集群的管理與運營，涉及雲運維平台、雲運營平台和雲審計平台；第13章基於一個服務機器學習的GPU計算平台落地案例，展示如何針對機器學習應用進行需求分析、設計與實現。
    無論是高等院校電腦與人工智慧等相關專業的本科生或研究生，還是對並行計算技術、雲計算技術、高性能存儲及高性能網路技術感興趣的研究人員或工程技術人員，都可以參考和閱讀本書。

作者介紹

方天戟|責編:張國霞
方天戟，騰訊專有雲首席架構師，本科畢業於北京航空航天大學自動控制專業，碩士研究生畢業於中國科學院研究生院電腦科學與技術專業。從業近20年，從事過硬體開發、內核與驅動開發、協議棧開發、網路與雲計算解決方案設計等工作，曾在華為、新華三、Juniper等企業任職，為航天科技、中國建築、BMW及環球影城等國內外知名客戶設計且落地過雲計算與網路解決方案。「雲鑒」叢書編寫組核心成員。

第1章  AI與大模型時代對基礎架構的需求
  1.1  我們在談論AI時，到底在談論什麼
  1.2  機器學習演算法初窺
  1.3  一元線性回歸演算法剖析
  1.4  機器學習演算法對電腦硬體的特殊需求
    1.4.1  機器學習演算法的核心運算特徵
    1.4.2  使用CPU實現機器學習演算法和並行加速
    1.4.3  機器學習演算法的主力引擎——GPU
    1.4.4  機器學習演算法的新引擎——TPU和NPU
  1.5  本章小結
第2章  軟體程序與專用硬體的結合
  2.1  GPU並行運算庫
  2.2  機器學習程序的開發框架
  2.3  分散式AI訓練
  2.4  本章小結
第3章  GPU硬體架構剖析
  3.1  GPU的總體設計
  3.2  Nvidia GH100晶元架構剖析
  3.3  其他Hopper架構的GPU
  3.4  本章小結
第4章  GPU伺服器的設計與實現
  4.1  初識Nvidia DGX
  4.2  Nvidia DGX A100的總體設計
  4.3  Nvidia DGX A100 CPU與內存子系統的設計
  4.4  Nvidia DGX A100 PCI-E子系統的設計
  4.5  Nvidia DGX A100 NVLink子系統的設計
  4.6  其他輔助子系統的設計
  4.7  本章小結
第5章  機器學習所依托的I/O框架體系
  5.1  Magnum IO的需求來源
  5.2  Magnum IO的核心組件
  5.3  伺服器內部的GPU互通
  5.4  跨伺服器節點的GPU通信
  5.5  RDMA的兩種實現
  5.6  GPU對存儲的訪問
  5.7  Magnum IO所依賴的其他支撐技術
    5.7.1  DPDK（Data Plane Development Kit，數據平面開發套件）
    5.7.2  DPU（Data Processing Unit，數據處理器）
    5.7.3  MPI Tag Matching
  5.8  本章小結
第6章  GPU集群的網路設計與實現
  6.1  GPU集群中RoCE計算網路的設計與實現
  6.2  GPU集群中存儲與業務網路的設計與實現
  6.3  GPU集群中帶外管理監控網路的設計與實現
  6.4  GPU集群中網路邊界的設計與實現
  6.5  本章小結
第7章  GPU板卡級算力調度技術
  7.1  基於虛擬化技術的GPU調度
  7.2  基於容器技術的GPU調度
  7.3  本章小結

第8章  GPU虛擬化調度方案
  8.1  Nvidia的GPU虛擬化調度方案
    8.1.1  API Remoting與vCUDA
    8.1.2  GRID vGPU
    8.1.3  Nvidia MIG
  8.2  其他硬體廠商的GPU虛擬化調度方案
    8.2.1  AMD的SRIOV方案
    8.2.2  Intel的GVT-G方案
  8.3  雲廠商與開源社區基於容器的GPU虛擬化調度方案
    8.3.1  TKE vCUDA+GPU Manager
    8.3.2  阿里雲的cGPU
    8.3.3  騰訊雲的qGPU
  8.4  本章小結
第9章  GPU集群的網路虛擬化設計與實現
  9.1  基於SDN的VPC技術：網路虛擬化技術的基石
  9.2  雲負載均衡：機器學習網路的中流砥柱
  9.3  專線接入、對等連接與VPC網關
  9.4  SDN NFV網關的實現與部署
    9.4.1  基於virtio-net/vhost的虛擬機部署NFV
    9.4.2  基於SRIOV的虛擬機部署NFV
    9.4.3  使用DPDK技術對NFV加速
  9.5  本章小結
第10章  GPU集群的存儲設計與實現
  10.1  程序與系統存儲——分散式塊存儲
    10.1.1  塊存儲的業務需求
    10.1.2  集中式塊存儲與分散式塊存儲
    10.1.3  分散式塊存儲的故障恢復
    10.1.4  分散式塊存儲的性能優化
    10.1.5  分散式塊存儲的快照與回滾
  10.2  海量非結構化數據存儲——分散式對象存儲
    10.2.1  入門級對象存儲的首選：Ceph
    10.2.2  開源海量對象存儲：Swift
    10.2.3  商業化對象存儲：大型公有雲對象存儲私有化
    10.2.4  未來之星：Minio
  10.3  AI訓練素材存儲——分散式併發高性能存儲
    10.3.1  開源大數據存儲鼻祖：HDFS
    10.3.2  業界對HDFS的改進
    10.3.3  長青松柏：Lustre
  10.4  本章小結
第11章  機器學習應用開發與運行平台的設計與實現
  11.1  微服務平台
    11.1.1  Kubernetes：微服務基礎能力平台
    11.1.2  Spring Cloud：Java系專屬微服務平台
    11.1.3  Istio：不挑開發語言，只挑部署架構
    11.1.4  商業化微服務平台：兼顧各類需求的選擇
  11.2  中間件服務
    11.2.1  消息中間件
    11.2.2  緩存中間件
    11.2.3  資料庫（數據中間件）
  11.3  應用日誌服務

  11.4  本章小結
第12章  基於雲平台的GPU集群的管理與運營
  12.1  雲運維平台
    12.1.1  硬體基礎設施管理
    12.1.2  系統監控與告警平台
    12.1.3  CMDB
  12.2  雲運營平台
  12.3  雲審計平台
  12.4  本章小結
第13章  服務機器學習的GPU計算平台落地案例
  13.1  �

同類熱銷排行榜

最近瀏覽的商品

大模型時代的基礎架構(大模型算力中心建設指南全彩印刷)