幫助中心 | 我的帳號 | 關於我們

Spark3.x大數據分析實戰(視頻教學版)

  • 作者:張偉洋|責編:王金柱
  • 出版社:清華大學
  • ISBN:9787302614500
  • 出版日期:2022/09/01
  • 裝幀:平裝
  • 頁數:310
人民幣:RMB 89 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書基於Spark 3.2.x版本,從Spark核心編程語言Scala講起,涵蓋了當前整個Spark生態系統主流的大數據開發技術。全書共9章,第1章講解了Scala語言的基礎知識,包括IDEA工具的使用等;第2章講解了Spark的主要組件、集群架構原理、集群環境搭建以及Spark應用程序的提交和運行;第3?9章講解了離線計算框架Spark RDD、Spark SQL和實時計算框架Kafka、Spark Streaming、Structured Streaming以及圖計算框架GraphX等的基礎知識、架構原理,同時包括常用Shell命令、API操作、內核源碼剖析,並通過多個實際案例講解各個框架的具體應用以及與Hadoop生態系統框架Hive、HBase、Kafka的整合操作。
    本書通俗易懂,案例豐富,注重實操,適合Spark新手和大數據開發人員閱讀,也可作為培訓機構和高校大數據及相關專業的教學用書。

作者介紹
張偉洋|責編:王金柱
    張偉洋,大數據領域資深專家,擁有多年頂尖互聯網公司軟體研發經驗,曾在互聯網旅遊公司任軟體研發事業部經理。目前從事大數據項目講師工作,先後多次給各大高校舉行大數據專題講座,對Hadoop及周邊大數據框架ZooKeeper、Hive、HBase、Storm、Spark、Flink等有著深入的研究。高等院校雲計算與大數據專業課改教材《雲計算與大數據概論》《大數據開發與應用》的主要編寫者。

目錄
第1章  Spark開發準備——Scala基礎
  1.1  什麼是Scala
  1.2  安裝Scala
    1.2.1  在Windows中安裝Scala
    1.2.2  在CentOS 7中安裝Scala
  1.3  Scala基礎
    1.3.1  變數聲明
    1.3.2  數據類型
    1.3.3  表達式
    1.3.4  循環
    1.3.5  方法與函數
  1.4  集合
    1.4.1  數組
    1.4.2  List
    1.4.3  Map映射
    1.4.4  元組
    1.4.5  Set
  1.5  類和對象
    1.5.1  類的定義
    1.5.2  單例對象
    1.5.3  伴生對象
    1.5.4  get和set方法
    1.5.5  構造器
  1.6  抽象類和特質
    1.6.1  抽象類
    1.6.2  特質
  1.7  使用Eclipse創建Scala項目
    1.7.1  安裝Scala for Eclipse IDE
    1.7.2  創建Scala項目
  1.8  使用IntelliJ IDEA創建Scala項目
    1.8.1  在IDEA中安裝Scala插件
    1.8.2  創建Scala項目
  1.9  動手練習
第2章  初識Spark
  2.1  大數據開發的總體架構
  2.2  什麼是Spark
  2.3  Spark的主要組件
  2.4  Spark運行架構
    2.4.1  YARN集群架構
    2.4.2  Spark Standalone架構
    2.4.3  Spark On YARN架構
  2.5  Spark集群搭建與測試
    2.5.1  Spark Standalone模式的集群搭建
    2.5.2  Spark On YARN模式的集群搭建
    2.5.3  Spark HA的搭建
  2.6  Spark應用程序的提交
  2.7  Spark Shell的使用
  2.8  動手練習
第3章  Spark RDD彈性分散式數據集
  3.1  什麼是RDD

  3.2  創建RDD
    3.2.1  從對象集合創建RDD
    3.2.2  從外部存儲創建RDD
  3.3  RDD的運算元
    3.3.1  轉化運算元
    3.3.2  行動運算元
  3.4  RDD的分區
    3.4.1  分區數量
    3.4.2  自定義分區器
  3.5  RDD的依賴
    3.5.1  窄依賴
    3.5.2  寬依賴
    3.5.3  Stage劃分
  3.6  RDD的持久化
    3.6.1  存儲級別
    3.6.2  查看緩存
  3.7  RDD的檢查點
  3.8  共享變數
    3.8.1  廣播變數
    3.8.2  累加器
  3.9  案例分析:Spark RDD實現單詞計數
    3.9.1  新建Maven管理的Spark項目
    3.9.2  編寫WordCount程序
    3.9.3  提交程序到集群
  3.10  案例分析:Spark RDD實現分組求TopN
  3.11  案例分析:Spark RDD實現二次排序
  3.12  案例分析:Spark RDD計算成績平均分
  3.13  案例分析:Spark RDD倒排索引統計  每日新增用戶
  3.14  案例分析:Spark RDD讀寫HBase
    3.14.1  讀取HBase表數據
    3.14.2  寫入HBase表數據
  3.15  案例分析:Spark RDD數據傾斜問題的解決
    3.15.1  數據傾斜的常用解決方法
    3.15.2  使用隨機key進行雙重聚合
    3.15.3  WebUI查看Spark歷史作業
  3.16  動手練習
第4章  Spark內核源碼分析
  4.1  Spark集群啟動原理分析
  4.2  Spark應用程序提交原理分析
  4.3  Spark作業工作原理分析
    4.3.1  MapReduce的工作原理
    4.3.2  Spark作業的工作原理
  4.4  Spark檢查點原理分析
第5章  Spark SQL結構化數據處理引擎
  5.1  什麼是Spark SQL
  5.2  DataFrame和Dataset
  5.3  Spark SQL的基本使用
  5.4  Spark SQL數據源
    5.4.1  基本操作
    5.4.2  Parquet文件

    5.4.3  JSON數據集
    5.4.4  Hive表
    5.4.5  JDBC
  5.5  Spark SQL內置函數
    5.5.1  自定義函數
    5.5.2  自定義聚合函數
    5.5.3  開窗函數
  5.6  案例分析:使用Spark SQL實現單詞計數
  5.7  案例分析:Spark SQL與Hive的整合
    5.7.1  整合Hive的步驟
    5.7.2  操作Hive的幾種方式
  5.8  案例分析:Spark SQL讀寫MySQL
  5.9  案例分析:Spark SQL每日UV統計
  5.10  案例分析:Spark SQL熱點搜索詞統計
  5.11  綜合案例:Spark SQL智慧交通數據分析
    5.11.1  項目介紹
    5.11.2  數據準備
    5.11.3  統計正常卡口數量
    5.11.4  統計車流量排名前3的卡口號
    5.11.5  統計車輛高速通過的卡口Top5
    5.11.6  統計每個卡口通過速度最快的前3輛車
    5.11.7  車輛軌跡分析
  5.12  動手練習
第6章  Kafka分散式消息系統
  6.1  什麼是Kafka
  6.2  Kafka架構
  6.3  主題與分區
  6.4  分區副本
  6.5  消費者組
  6.6  數據存儲機制
  6.7  集群環境搭建
  6.8  命令行操作
    6.8.1  創建主題
    6.8.2  查詢主題
    6.8.3  創建生產者
    6.8.4  創建消費者
  6.9  Java API操作
    6.9.1  創建Java工程
    6.9.2  創建生產者
    6.9.3  創建消費者
    6.9.4  運行程序
  6.10  案例分析:Kafka生產者攔截器
  6.11  動手練習
第7章  Spark Streaming實時流處理引擎
  7.1  什麼是Spark Streaming
  7.2  Spark Streaming工作原理
  7.3  輸入DStream和Receiver
  7.4  第一個Spark Streaming程序
  7.5  Spark Streaming數據源
    7.5.1  基本數據源

    7.5.2  高級數據源
    7.5.3  自定義數據源
  7.6  DStream操作
    7.6.1  無狀態操作
    7.6.2  狀態操作
    7.6.3  窗口操作
    7.6.4  輸出操作
    7.6.5  緩存及持久化
    7.6.6  檢查點
  7.7  案例分析:Spark Streaming按批次累加單詞數量
  7.8  案例分析:Spark Streaming整合Kafka計算實時單詞數量
  7.9  案例分析:Spark Streaming實時用戶日誌黑名單過濾
  7.10  綜合案例:微博用戶行為分析
  7.11  動手練習
第8章  Structured Streaming結構化流處理引擎
  8.1  什麼是Structured Streaming
  8.2  Structured Streaming單詞計數
  8.3  Structured Streaming編程模型
  8.4  Structured Streaming查詢輸出
  8.5  Structured Streaming窗口操作
    8.5.1  事件時間
    8.5.2  窗口聚合單詞計數
    8.5.3  延遲數據和水印
  8.6  案例分析:Structured Streaming整合Kafka實現單詞計數
  8.7  動手練習
第9章  GraphX圖計算引擎
  9.1  什麼是GraphX
  9.2  第一個GraphX程序
  9.3  GraphX數據結構
  9.4  GraphX圖操作
    9.4.1  基本操作
    9.4.2  屬性操作
    9.4.3  結構操作
    9.4.4  連接操作
    9.4.5  聚合操作
  9.5  案例分析:使用GraphX計算社交網路中粉絲的平均年齡
  9.6  動手練習

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032