內容大鋼
本書全面、系統地介紹了單機和分散式圖分析演算法的理論基礎、框架、實戰應用等,側重理論與實踐相結合。在內容組織上,首先,本書整體介紹圖分析技術的發展歷程和現狀,並分析圖分析技術面臨的挑戰。其次,本書系統介紹了以下內容:單機圖分析演算法的基本原理、常用場景和基礎解法;分散式圖分析技術的關鍵步驟解析及調優策略指導;業界經典的大數據平台和主流的分散式開發框架,以及分散式圖計算框架的運行機制和任務調度策略;結合工業界軟硬體(鯤鵬晶元和鯤鵬BoostKit加速庫)對分散式圖分析演算法進行調優的方法。最後,本書將分散式圖分析技術應用於實際場景,幫助讀者基於業務場景進行分散式圖計算框架選型。
本書既可以幫助對大數據圖分析演算法感興趣的讀者了解典型圖分析演算法的原理與優化技術,也可以作為華為鯤鵬圖分析演算法框架下的實踐參考書。
目錄
叢書序
前言
本書閱讀導引
第1章 圖分析技術概述
1.1 圖分析技術的重要性
1.1.1 發展脈絡
1.1.3 應用發展
1.2 圖分析技術體系
1.2.1 圖資料庫技術
1.2.2 圖計算技術
1.2.3 圖學習技術
1.2.4 圖生成技術
1.2.5 圖可視化技術
1.3 大數據背景下圖分析技術面臨的挑戰
第2章 經典圖演算法
2.1 路徑分析
2.1.1 最短路徑演算法
2.1.2 環路檢測演算法
2.2 社區挖掘
2.2.1 連通分量演算法
2.2.2 Louvain演算法
2.3 中心性分析
2.3.1 Betweenness演算法
2.3.2 K-Core分解演算法
2.4 度量統計
2.4.1 三角形計數演算法
2.4.2 集聚係數演算法
2.5 相似性分析
2.5.1 SimRank演算法
2.5.2 子圖匹配演算法
第3章 分散式圖計算框架
3.1 分散式大數據平台概述
3.1.1 Hadoop
3.1.2 Spark
3.1.3 Flink
3.1.4 小結
3.2 分散式圖計算框架核心技術
3.2.1 編程模型
3.2.2 通信模型
3.2.3 執行模型
3.2.4 計算模型
3.2.5 圖劃分
3.3 經典分散式圖計算框架
3.3.1 Pregel
3.3.2 GraphLab
3.3.3 GraphX
3.3.4 Gemini
3.4 分散式圖計算的技術挑戰
第4章 鯤鵬BoostKit圖分析演算法加速庫
4.1 鯤鵬晶元
4.1.1 鯤鵬晶元的發展歷程
4.1.2 鯤鵬晶元的架構
4.1.3 鯤鵬920的特性
4.2 鯤鵬BoostKit概述
4.2.1 鯤鵬應用使能套件BoostKit
4.2.2 大數據使能套件
4.3 鯤鵬BoostKit圖分析演算法加速庫簡介
4.3.1 演算法庫概述
4.3.2 演算法加速庫安裝部署
4.3.3 演算法庫集成開發
4.3.4 演算法庫調測樣例
4.4 鯤鵬BoostKit圖分析演算法加速庫調優指南
4.4.1 平台側調優
4.4.2 資源側調優
4.4.3 演算法側調優
第5章 基於鯤鵬的分散式圖分析演算法優化實戰
5.1 環路檢測演算法
5.1.1 分散式實現
5.1.2 難點分析
5.1.3 關鍵步驟與優化點解析
5.1.4 鯤鵬BoostKit演算法API介紹
5.2 Louvain演算法
5.2.1 分散式實現
5.2.2 難點分析
5.2.3 關鍵步驟與優化點解析
5.2.4 鯤鵬BoostKit演算法API介紹
5.3 Betweenness演算法
5.3.1 分散式實現
5.3.2 難點分析
5.3.3 關鍵步驟與優化點解析
5.3.4 鯤鵬BoostKit演算法API介紹
5.4 PageRank演算法
5.4.1 分散式實現
5.4.2 難點分析
5.4.3 關鍵步驟與優化點解析
5.4.4 鯤鵬BoostKit演算法API介紹
5.5 K-Core分解演算法
5.5.1 分散式實現
5.5.2 難點分析
5.5.3 關鍵步驟與優化點解析
5.5.4 鯤鵬BoostKit演算法API介紹
5.6 子圖匹配演算法
5.6.1 分散式實現
5.6.2 難點分析
5.6.3 關鍵步驟與優化點解析
5.6.4 鯤鵬BoostKit演算法API介紹
第6章 圖分析演算法應用實戰
6.1 網頁搜索排名案例
6.1.1 場景介紹
6.1.2 整體方案
6.1.3 關鍵步驟
6.1.4 小結
6.2 視頻推薦案例
6.2.1 場景介紹
&nb