幫助中心 | 我的帳號 | 關於我們

圖解Spark(大數據快速分析實戰)

  • 作者:王磊|責編:謝曉芳
  • 出版社:人民郵電
  • ISBN:9787115580115
  • 出版日期:2022/02/01
  • 裝幀:平裝
  • 頁數:320
人民幣:RMB 109.9 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書共8章,內容主要包括Spark概述及入門實戰,Spark的作業調度和資源分配演算法,Spark SQL、DataFrame、Dataset的原理和實戰,深入理解Spark數據源,流式計算的原理和實戰,億級數據處理平台Spark性能調優,Spark機器學習庫,Spark 3.0的新特性和數據湖等。
    本書適合Spark開發人員和Spark運維人員閱讀。

作者介紹
王磊|責編:謝曉芳

目錄
第1章  Spark概述及入門實戰
  1.1  Spark簡介
    1.1.1  為什麼要學習Spark
    1.1.2  學好Spark的關鍵點
    1.1.3  Spark學習難點
    1.1.4  本書編寫思路
  1.2  Spark原理及特點
    1.2.1  Spark的核心優勢
    1.2.2  Spark生態介紹
    1.2.3  Spark模塊的組成
    1.2.4  Spark運行模式
    1.2.5  Spark集群的角色組成
    1.2.6  Spark核心概念
    1.2.7  Spark作業運行流程
  1.3  Spark入門實戰
    1.3.1  Spark獨立環境安裝實戰
    1.3.2  YARN環境安裝實戰
    1.3.3  Spark批處理作業入門實戰
    1.3.4  Spark流式作業入門實戰
第2章  Spark的作業調度和資源分配演算法
  2.1  Spark的作業調度
    2.1.1  Spark作業運行框架概述
    2.1.2  Spark調度器原理
    2.1.3  Spark應用程序的核心概念
    2.1.4  Spark應用程序的調度流程
    2.1.5  在YARN級別調度Spark作業
    2.1.6  在任務級別調度Spark作業
    2.1.7  本地化調度簡介
    2.1.8  本地化調度流程:延遲調度策略
    2.1.9  Spark任務延遲調度
    2.1.10  Spark失敗重試與黑名單機制
    2.1.11  推測執行
    2.1.12  資源分配機制
  2.2  Spark on YARN資源調度
    2.2.1  Spark on YARN運行模式
    2.2.2  YARN調度器
  2.3  RDD概念
    2.3.1  RDD簡介
    2.3.2  RDD的特點
  2.4  RDD分區
    2.4.1  分區的概念
    2.4.2  分區器
    2.4.3  自定義分區器
  2.5  RDD依賴關係
  2.6  Stage
  2.7  RDD持久化
    2.7.1  RDD持久化的概念
    2.7.2  RDD持久化的使用
    2.7.3  RDD持久化級別
    2.7.4  RDD持久化原則

  2.8  RDD檢查點
  2.9  RDD實戰
    2.9.1  編寫一個簡單的RDD演示程序
    2.9.2  利用外部存儲系統生成RDD
    2.9.3  RDD支持Transformation操作和Action操作
    2.9.4  RDD懶載入
    2.9.5  Spark函數的3種實現方式
    2.9.6  RDD操作中常用Transformation運算元的原理及使用
    2.9.7  RDD操作中常用Action運算元的原理及使用
    2.9.8  Spark廣播變數的概念、好處和使用
第3章  Spark SQL、DataFrame、Dataset原理和實戰
  3.1  Spark SQL基礎概念
    3.1.1  Spark SQL介紹
    3.1.2  Spark SQL查詢語句介紹
    3.1.3  DataFrame的概念
    3.1.4  Dataset的概念
  3.2  創建一個Spark SQL應用
  3.3  Spark SQL視圖操作
  3.4  Spark Dataset操作
  3.5  Spark DataFrame操作
    3.5.1  DataFrame Schema設置
    3.5.2  DataFrame數據載入
    3.5.3  DataFrame數據保存
  3.6  Spark SQL操作
    3.6.1  Spark SQL表關聯操作
    3.6.2  Spark SQL函數操作
第4章  深入理解Spark數據源
  4.1  Spark文件讀寫原理
    4.1.1  Spark數據分佈
    4.1.2  Spark數據讀取過程
    4.1.3  Spark數據寫出過程
  4.2  Spark數據格式
    4.2.1  TEXT
    4.2.2  CSV
    4.2.3  JSON
    4.2.4  Parquet
    4.2.5  ORC
    4.2.6  AVRO
    4.2.7  到底應該使用哪種數據格式
  4.3  Spark讀寫HDFS
    4.3.1  HDFS的概念和特點
    4.3.2  HDFS架構
    4.3.3  HDFS數據的寫入和讀取流程
    4.3.4  HDFS的使用
  4.4  Spark讀寫HBase
    4.4.1  HBase的概念
    4.4.2  HBase架構
    4.4.3  HBase數據模型
    4.4.4  HBase的使用
  4.5  Spark讀寫MongoDB

    4.5.1  MongoDB的概念
    4.5.2  MongoDB數據模型
    4.5.3  MongoDB架構
    4.5.4  MongoDB的使用
  4.6  Spark讀寫Cassandra
    4.6.1  Cassandra的概念
    4.6.2  Gossip協議
    4.6.3  Cassandra數據模型
    4.6.4  Cassandra架構
    4.6.5  Cassandra的使用
  4.7  Spark讀寫MySQL
  4.8  Spark讀寫Kafka
    4.8.1  Kafka的概念
    4.8.2  Kafka集群架構
    4.8.3  Kafka數據存儲設計
    4.8.4  Kafka消息併發設計
    4.8.5  Kafka的使用
  4.9  Spark讀寫ElasticSearch
    4.9.1  ElasticSearch的概念
    4.9.2  ElasticSearch數據模型
    4.9.3  ElasticSearch集群架構
    4.9.4  ElasticSearch副本架構
    4.9.5  ElasticSearch的使用
第5章  Spark流式計算的原理和實戰
  5.1  Spark Streaming
    5.1.1  Spark Streaming介紹
    5.1.2  Spark Streaming入門實戰
    5.1.3  Spark Streaming的數據源
    5.1.4  DStream
  5.2  Spark Structured Streaming
    5.2.1  Spark Structured Streaming介紹
    5.2.2  Spark Structured Streaming的特點
    5.2.3  Spark Structured Streaming的數據模型
    5.2.4  創建一個Spark Structured Streaming應用
    5.2.5  時間概念、延遲數據處理策略和容錯語義
    5.2.6  Spark Structured Streaming編程模型
    5.2.7  在結構化數據流上執行操作
    5.2.8  啟動Spark Structured Streaming
    5.2.9  Spark Structured Streaming結果輸出
    5.2.10  觸發器
第6章  億級數據處理平台Spark性能調優
  6.1  內存調優
    6.1.1  JVM內存調優
    6.1.2  堆外內存設置
    6.1.3  storageFraction設置
    6.1.4  Spark JVM調優的最佳實踐
  6.2  任務調優
    6.2.1  驅動器數量、內存及CPU配置
    6.2.2  設置合理的並行度
    6.2.3  任務等待時長調優

    6.2.4  黑名單調優
  6.3  數據本地性調優
    6.3.1  數據本地化介紹
    6.3.2  RDD的復用和數據持久化
    6.3.3  廣播變數
    6.3.4  Kryo序列化
    6.3.5  檢查點
  6.4  運算元調優
    6.4.1  使用mapPartitions()或mapPartitionWithIndex()函數取代map()函數
    6.4.2  使用foreachPartition()函數取代foreach()函數
    6.4.3  使用coalesce()函數取代repartition()函數
    6.4.4  使用repartitionAndSortWithin-Partitions()函數取代「重分區+排序」操作
    6.4.5  使用reduceByKey()函數取代groupByKey()函數
    6.4.6  連接不產生Shuffle:map-side關聯
  6.5  Spark SQL調優
  6.6  Spark Shuffle調優
  6.7  Spark Streaming調優
    6.7.1  設置合理的批處理時間(batchDuration)
    6.7.2  增加並行度
    6.7.3  使用Kryo序列化器序列化數據
    6.7.4  緩存經常需要使用的數據
    6.7.5  清除不需要的數據
    6.7.6  設置合理的CPU資源
    6.7.7  設置合理的JVM GC
    6.7.8  在處理數據前進行重分區
    6.7.9  設置合理的內存
  6.8  處理Spark數據傾斜問題
    6.8.1  什麼是數據傾斜
    6.8.2  導致數據傾斜的原因是什麼
    6.8.3  如何判斷Spark應用程序在運行中出現了數據傾斜
    6.8.4  數據傾斜消除方案
第7章  Spark機器學習庫
  7.1  Spark機器學習概述
    7.1.1  為什麼要使用機器學習
    7.1.2  機器學習的應用場景
    7.1.3  機器學習的分類
    7.1.4  機器學習演算法
    7.1.5  機器學習流程概述
    7.1.6  數據探索
  7.2  Spark機器學習常用統計方法
    7.2.1  常用統計指標概述
    7.2.2  Spark ML基礎統計實戰
    7.2.3  Spark ML相關性分析
    7.2.4  Spark ML數據抽樣
  7.3  Spark分類模型
    7.3.1  分類模型介紹
    7.3.2  線性回歸
    7.3.3  邏輯回歸
    7.3.4  樸素貝葉斯
    7.3.5  決策樹

  7.4  協同過濾
  7.5  Spark聚類模型
    7.5.1  聚類模型的概念
    7.5.2  聚類分析演算法
    7.5.3  k-均值演算法模型
第8章  Spark 3.0的新特性和數據湖
  8.1  Spark 3.0新特性概述
    8.1.1  AQE
    8.1.2  Spark SQL的新特性
    8.1.3  Koalas和增強的PySpark
    8.1.4  數據湖
    8.1.5  Hydrogen、流和可擴展性
    8.1.6  Spark 3.0的其他新特性
  8.2  Spark未來的趨勢——數據湖
    8.2.1  為什麼需要數據湖
    8.2.2  Delta Lake
    8.2.3  Delta Lake實戰
術語的中英文對照表

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032