幫助中心 | 我的帳號 | 關於我們

Spark大數據技術與應用(Scala版基於Hadoop3.3+Spark3.5中高本一體化教材)/大數據工程技術系列

  • 作者:編者:李新輝//高永梅|責編:楊永毅
  • 出版社:電子工業
  • ISBN:9787121515477
  • 出版日期:2026/01/01
  • 裝幀:平裝
  • 頁數:297
人民幣:RMB 59.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    Spark是業界主流的大數據計算框架,擁有強大的分散式計算能力,能夠充分利用大量的廉價機器進行大數據的處理工作,同時又具備較高的性能,這使得它在各大互聯網企業中有著廣泛的應用。
    本書通過一系列通俗易懂的數據處理實例展開,詳細闡述Spark大數據平台與環境搭建、Spark RDD離線數據計算、Spark SQL離線數據處理、Spark Streaming流數據計算等一系列常見的大數據處理技術,在此基礎上對Spark框架的核心概念及技術原理進行詳細分析,最後通過一個綜合實例展示Spark離線數據處理的具體應用與部署。本書將Scala基礎知識的介紹融入實例中,並未像傳統做法那樣設置單獨的章節,方便讀者按需學習,以減輕學習一種新編程語言的壓力。全書各環節遵循「做中學」的設計理念,內容編排貼近初學者的認知規律,從細小簡單的實例入手,輔以大量配圖,對學習過程中涉及的枯燥數據、抽象概念和複雜原理予以圖示化的解釋說明,還安排了大量單元訓練,以達到教學過程中的「學以致用」目的,內容編寫以語言淺顯易懂、技術體系清晰、邏輯銜接合理、知識內容夠用為原則。在最後安排的數據處理綜合實例中,分別從需求分析、技術準備、數據清洗、需求實現、數據可視化等幾個關鍵環節開展敘述,便於讀者對Spark大數據項目的整體開發流程有一個實際的體會。
    本書是《Spark大數據分析與實戰(Python+PySpark)》的姊妹版,可作為高等學校大數據、人工智慧等相關專業課程的選用教材,也可作為從事大數據分析、大數據運維工作的技術人員和廣大技術愛好者的參考用書。

作者介紹
編者:李新輝//高永梅|責編:楊永毅

目錄
第1章  Spark大數據平台與環境搭建
  1.1  引言
  1.2  Spark大數據平台介紹
    1.2.1  Spark是什麼
    1.2.2  Spark與大數據的應用場景
    1.2.3  Spark編程環境(Scala)
    1.2.4  Spark應用程序基本原理
  1.3  Spark大數據環境搭建
    1.3.1  Linux操作系統安裝和配置
      1.Ubuntu虛擬機的安裝
      2.Ubuntu基本配置
      3.vi編輯器
      4.MobaXterm遠程連接工具
    1.3.2  Hadoop偽分散式集群環境搭建
      1.JDK的安裝與配置
      2.Linux免密登錄
      3.Hadoop的安裝
      4.HDFS的配置
      5.YARN的配置
      6.HDFS和YARN的測試
    1.3.3  Spark單機運行環境搭建
      1.Spark的安裝與配置
      2.SparkShell互動式編程環境
      3.Spark框架的目錄結構
  1.4  Scala核心語法概覽
  1.5  單元訓練
第2章  Spark RDD離線數據計算
  2.1  引言
  2.2  RDD基本原理
  2.3  RDD編程模型
  2.4  Spark RDD常用操作
    2.4.1  RDD的創建
      1.通過集合元素創建RDD
      2.通過文本文件創建RDD
    2.4.2  RDD的轉換操作
      1.map數據轉換
      2.flatMap數據轉換
      3.filter數據篩選
      4.sortBy數據排序
      5.distinct數據去重
      6.union數據合併
      7.intersection數據交集
      8.subtract數據差集
      9.groupBy數據分組
      10.groupByKey數據分組
      11.reduceByKey數據歸併
      12.sortByKey數據排序
      13.keys和values操作
      14.mapValues和flatMapValues操作
    2.4.3  RDD的行動操作

      1.collect操作
      2.take操作
      3.first操作
      4.count/countByValue操作
      5.max/min/sum/mean操作
  2.5  Spark RDD數據計算實例
    2.5.1  詞頻統計實例
    2.5.2  基本TopN問題實例
    2.5.3  用戶消費數據處理實例
  2.6  Spark的文件讀/寫
    2.6.1  文本文件的讀/寫
      1.textFile讀取文本數據
      2.saveAsTextFile保存到文本文件中
    2.6.2  SequenceFile文件的讀/寫
  2.7  單元訓練
第3章  Spark SQL離線數據處理
  3.1  引言
  3.2  DataFrame基本原理
  3.3  Spark SQL常用操作
    3.3.1  DataFrame的基本創建
      1.使用集合創建DataFrame
      2.使用CSV文件創建DataFrame
    3.3.2  DataFrame的查看
    3.3.3  DataFrame的數據操作(DSL)
      1.DataFrame的數據查詢
      2.DataFrame的數據處理
    3.3.4  DataFrame的數據操作(SQL)
      1.DataFrame視圖表的創建
      2.DataFrame視圖表的SQL查詢
  3.4  Spark SQL數據處理實例
    3.4.1  人口信息統計實例
    3.4.2  電影評分數據分析實例
  3.5  DataFrame創建和保存
    3.5.1  創建DataFrame
      1.通過JSON文件創建DataFrame
      2.通過Parquet文件創建DataFrame
    3.5.2  保存DataFrame
  3.6  RDD/DataFrame/Dataset類型轉換
  3.7  單元訓練
第4章  Spark Streaming流數據計算
  4.1  引言
  4.2  Spark Streaming基本原理
  4.3  Spark Streaming詞頻統計
    4.3.1  Netcat網路工具測試
    4.3.2  DStream詞頻統計
  4.4  單元訓練
第5章  Spark編程進階
  5.1  引言
  5.2  搭建Spark應用開發環境
    5.2.1  Scala編程環境

    5.2.2  IntelliJ IDEA集成開發環境
  5.3  理解RDD
    5.3.1  RDD的基本概念
    5.3.2  RDD的分區機制
    5.3.3  RDD的依賴關係
      1.窄依賴
      2.寬依賴
    5.3.4  RDD的計算調度
      1.Job
      2.Stage
      3.Task
  5.4  RDD緩存機制
  5.5  廣播變數和累加器
    5.5.1  廣播變數
    5.5.2  累加器
  5.6  Spark生態和應用架構
    5.6.1  Spark生態架構
      1.Spark Core組件
      2.Spark SQL組件
      3.Spark Streaming組件
      4.MLlib組件
      5.GraphX組件
    5.6.2  Spark應用架構
      1.Spark應用的基本原理
      2.Spark應用程序
      3.Spark應用程序的運行方式
  5.7  Spark集群和應用部署
    5.7.1  Spark偽分散式集群的搭建
    5.7.2  Spark應用部署模式
      1.Local模式
      2.Spark Standalone模式
      3.Spark on YARN模式
    5.7.3  Spark應用部署實例
      1.Local模式
      2.Spark Standalone模式
      3.Spark on YARN模式
      4.Spark應用的部署參數
  5.8  單元訓練
第6章  Spark大數據分析項目實例
  6.1  引言
  6.2  CentOS7+JDK8虛擬機安裝
  6.3  Hadoop+Spark分散式集群環境
    6.3.1  Hadoop+Spark Standalone分散式集群環境搭建
    6.3.2  Hadoop+Spark on YARN分散式集群環境搭建
  6.4  Spark離線數據處理實例
    6.4.1  需求分析
    6.4.2  準備工作
      1.數據清洗(Pandas)
      2.窗口操作(Spark SQL)
      3.數據可視化(pyecharts)

    6.4.3  美妝商品訂單數據分析
      1.創建Spark項目
      2.訂單數據處理分析
      3.結果數據保存
    6.4.4  美妝商品訂單數據可視化
  6.5  Spark數據分析實例部署
  6.6  單元訓練

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032