幫助中心 | 我的帳號 | 關於我們

Spark大數據分析與實戰(Python+PySpark微課版高等職業教育大數據工程技術系列教材)

  • 作者:編者:李新輝//馮霞//吳功才|責編:徐建軍
  • 出版社:電子工業
  • ISBN:9787121472770
  • 出版日期:2024/02/01
  • 裝幀:平裝
  • 頁數:300
人民幣:RMB 59.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    Spark是業界主流的大數據計算框架。本書通過一系列大數據應用案例和實踐項目貫穿始終,使用Python詳細闡述了Spark大數據環境的搭建、Spark RDD離線數據計算、Spark SQL離線數據處理、Spark Streaming實時數據計算等一系列常見的大數據處理問題,並在此基礎上對Spark的核心概念及技術原理進行了詳細分析,最後以兩個綜合案例分別展示了Spark離線數據處理和實時數據處理的具體應用與部署。
    本書踐行「做中學」的設計理念,內容編排符合學習與認知規律,從簡單細小案例入手,輔以大量配圖對學習過程中涉及的枯燥數據、抽象概念和複雜原理進行圖示化說明,語言淺顯易懂,技術體系清晰,邏輯銜接合理。在本書最後兩個綜合案例中,分別從需求分析、技術準備、數據清洗、需求實現、數據可視化等幾個關鍵環節展開敘述,便於讀者對Spark大數據項目的整體開發流程有一個比較清晰的認識。
    本書既可作為高校大數據、人工智慧等相關專業課程的教材,也可作為從事大數據分析、大數據運維工作的技術人員和廣大技術愛好者的參考書。

作者介紹
編者:李新輝//馮霞//吳功才|責編:徐建軍

目錄
第1章  Spark大數據平台與環境搭建
  1.1  引言
  1.2  Spark大數據平台介紹
    1.2.1  Spark是什麼
    1.2.2  Spark與大數據的應用場景
    1.2.3  Spark編程環境(PySpark)
    1.2.4  Spark應用程序原理
  1.3  Spark大數據環境搭建
    1.3.1  Linux作系統安裝和配置
    1.3.2  Hadoop偽分佈集群環境搭建
    1.3.3  Spark單機運行環境搭建
  1.4  Python核心語法概覽
  1.5  單元訓練
第2章  Spark RDD離線數據計算
  2.1  引言
  2.2  RDD基本原理
  2.3  RDD編程模型
  2.4  Spark RDD常用作
    2.4.1  RDD的創建
    2.4.2  RDD的轉換作
    2.4.3  RDD的行動作
  2.5  Spark RDD數據計算實例
    2.5.1  詞頻統計案例
    2.5.2  基本TopN問題案例
    2.5.3  用戶消費數據處理案例
  2.6  Spark文件的讀/寫
    2.6.1  文本文件的讀/寫
    2.6.2  SequenceFile文件的讀/寫
  2.7  單元訓練
第3章  Spark SQL離線數據處理
  3.1  引言
  3.2  DataFrame基本原理
  3.3  Spark SQL常用作
    3.3.1  DataFrame的基本創建
    3.3.2  DataFrame的查看
    3.3.3  DataFrame的數據作(DSL)
    3.3.4  DataFrame的數據作(SQL)
  3.4  Spark SQL數據處理實例
    3.4.1  詞頻統計案例
    3.4.2  人口信息統計案例
    3.4.3  電影評分數據分析案例
  3.5  Spark SQL訪問資料庫
    3.5.1  在Linux作系統上安裝MySQL
    3.5.2  DataFrame寫入MySQL
    3.5.3  從MySQL中創建DataFrame
  3.6  DataFrame創建和存
    3.6.1  創建DataFrame
    3.6.2  存DataFrame
  3.7  Spark的數據類型轉換
  3.8  單元訓練

第4章  Spark Streaming實時數據計算
  4.1  引言
  4.2  Spark Streaming基本原理
  4.3  Spark Streaming詞頻統計
    4.3.1  Netcat網路工具測試
    4.3.2  DStream詞頻統計
  4.4  DStream數據轉換作
    4.4.1  DStream無狀態轉換作
    4.4.2  DStream基於狀態更新的轉換
    4.4.3  DStream基於滑動窗口的轉換
  4.5  DStream輸出作
  4.6  DStream數據源讀取
    4.6.1  讀取文件數據流
    4.6.2  讀取Kafka數據流
  4.7  單元訓練
第5章  Spark編程進
  5.1  引言
  5.2  搭建PySpark開發環境
    5.2.1  PySpark互動式編程環境
    5.2.2  Jupyter Notebook編程環境
    5.2.3  PyCharm集成開發環境
  5.3  理解RDD
    5.3.1  RDD基本概念
    5.3.2  RDD的分區
    5.3.3  RDD的依賴關係
    5.3.4  RDD的計算調度
  5.4  RDD緩存機制
  5.5  廣播變數和累加器
    5.5.1  廣播變數
    5.5.2  累加器
  5.6  Spark生態和應用架構
    5.6.1  Spark生態架構
    5.6.2  Spark應用架構
  5.7  Spark集群和應用署
    5.7.1  Spark偽分佈集群的搭建
    5.7.2  Spark應用署模式
    5.7.3  Spark應用署實例
  5.8  單元訓練
第6章  Spark大數據分析項目實例
  6.1  引言
  6.2  CentOS7+JDK8虛擬機安裝
  6.3  Hadoop+Spark分散式集群環境
    6.3.1  Hadoop+Spark Standalone分散式集群環境搭建
    6.3.2  Hadoop+Spark on YARN分散式集群環境搭建
  6.4  Spark離線數據處理實例
    6.4.1  需求分析
    6.4.2  準備工作
    6.4.3  美妝商品訂單數據分析
    6.4.4  美妝商品訂單數據可視化
  6.5  Spark實時數據處理實例

    6.5.1  需求分析
    6.5.2  準備工作
    6.5.3  通話記錄生產者模擬
    6.5.4  消息接收者測試
    6.5.5  Spark Streaming通話記錄消息處理
  6.6  Spark數據分析案例署

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032