幫助中心 | 我的帳號 | 關於我們

PySpark原理深入與編程實戰(微課視頻版)/開發者成長叢書

  • 作者:編者:辛立偉//辛雨桐|責編:趙佳霓
  • 出版社:清華大學
  • ISBN:9787302625971
  • 出版日期:2023/08/01
  • 裝幀:平裝
  • 頁數:490
人民幣:RMB 119 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書系統講述Apache Spark/PySpark大數據計算平台的原理,以及如何將Apache PySpark應用於大數據的實時流處理、批處理等場景。通過對原理的深入講解和對實踐示例、案例的講解,使讀者了解並掌握Apache Spark/PySpark的基本原理和技能,拉近理論與實踐的距離。
    全書共分為8章,主要內容包括Spark架構原理與集群搭建、開發和部署PySpark應用程序、PySpark核心編程、PySpark SQL、PySpark結構化流、PySpark大數據分析綜合案例。本書源碼全部在Apache Spark 3.1.2上調試成功,所有示例和案例均基於Python 3.x語言。
    為降低讀者學習大數據技術的門檻,本書除提供了豐富的上機實踐操作和詳細的範例程序講解之外,還提供了搭建好的Hadoop、Hive數據倉庫和PySpark大數據開發和學習環境。讀者既可參照本書的講解自行搭建Hadoop和PySpark環境,也可直接使用本書提供的開發和學習環境,快速開始大數據和PySpark的學習。
    本書內容全面、實例豐富、可操作性強,做到了理論與實踐相結合。本書適合大數據學習愛好者、想要入門Apache Spark/PySpark的讀者作為入門和提高的技術參考書,也適合用作高等院校大數據專業相關課程的教材或教學參考書。

作者介紹
編者:辛立偉//辛雨桐|責編:趙佳霓
    辛立偉,一個在IT領域摸爬滾打二十多年的老程序員、技術培訓師、技術作者。橫跨Java、資料庫、大數據開發與分析、人工智慧等多個領域,參與多個IT項目的架構設計與開發。長期堅持撰寫技術博客,曾在多個大學講授Java開發、資料庫和大數據技術課程,曾擔任中國石油大學(青島校區)等多所院校的外聘講師。

目錄
第1章  Spark架構原理與集群搭建(回78min)
  1.1  Spark簡介
  1.2  Spark技術找
    1.2.1  Spark Core
    1.2.2  Spark SQL
    1.2.3  Spark Streaming和Structured Streaming
    1.2.4  Spark MLlib
    1.2.5  Spark GraphX
    1.2.6  SparkR
  1.3  Spark和PySpark架構原理
    1.3.1  Spark集群和資源管理系統
    1.3.2  Spark應用程序
    1.3.3  Spark Driver和Executor
    1.3.4  PySpark架構
  1.4  Spark程序部署模式
  1.5  安裝和配置Spark集群
    1.5.1  安裝Spark
    1.5.2  了解Spark目錄結構
    1.5.3  配置Spark/PySpark集群
    1.5.4  驗證PySpark安裝
  1.6  配置Spark歷史伺服器
    1.6.1  歷史伺服器配置
    1.6.2  啟動Spark歷史伺服器
  1.7  使用PySpark Shell進行互動式分析
    1.7.1  運行模式--master
    1.7.2  啟動和退出PySpark Shell
    1.7.3  PySpark Shell常用命令
    1.7.4  SparkContext和SparkSession
    1.7.5  Spark Web UI
  1.8  使用spark-submit提交PySpark應用程序
    1.8.1  spark-submit指令的各種參數說明
    1.8.2  提交pi.ipynb程序,計算圓周率x值
    1.8.3  將PySpark程序提交到YARN集群上執行
第2章  開發和部署PySpark應用程序
  2.1  使用PyCharm開發PySpark應用程序
    2.1.1  準備數據文件
    2.1.2  安裝PyCharm
    2.1.3  創建一個新的PyChamm項目
    2.1.4  安裝PySpark包
    2.1.5  創建PySpark應用程序
    2.1.6  部署到集群中運行
  2.2  使用Zeppelin進行互動式分析
    2.2.1  下載Zeppelin安裝包
    2.2.2  安裝和配置Zeppelin
    2.2.3  配置Spark/PySpark解釋器
    2.2.4  創建和執行Notebook文件
  2.3  使用Jupyter Notebook進行互動式分析
    2.3.1  配置PySpark Driver使用Jupyter Notebook
    2.3.2  使用findSpark包
第3章  PySpark核心編程

  3.1  理解數據抽象RDD
  3.2  RDD編程模型
    3.2.1  單詞計數應用程序
    3.2.2  理解SparkSession
    3.2.3  理解SparkContext
  3.3  創建RDD
    3.3.1  將現有的集合併行化以創建RDD
    3.3.2  從存儲系統讀取數據集以創建RDD
    3.3.3  從已有的RDD轉換得到新的RDD
    3.3.4  創建RDD時指定分區數量
  3.4  操作RDD
    3.4.1  RDD上的Transformation和Action
    3.4.2  RDD Transformation操作
    3.4.3  RDD Action操作
    3.4.4  RDD上的描述性統計操作
  3.5  Key-Value Pair RDD
    3.5.1  創建Pair RDD
    3.5.2  操作Pair RDD
    3.5.3  關於reduceByKey()操作
    3.5.4  關於aggregateByKey()操作
    3.5.5  關於combineByKey()操作
  3.6  持久化RDD
    3.6.1  緩存RDD
    3.6.2  RDD緩存策略
    3.6.3  檢查點RDD
  3.7  數據分區
    3.7.1  獲取和指定RDD分區數
    3.7.2  調整RDD分區數
    3.7.3  內置數據分區器
    3.7.4  自定義數據分區器
    3.7.5  避免不必要的shuffling
    3.7.6  基於數據分區的操作
  3.8  使用共享變數
    3.8.1  廣播變數
    3.8.2  累加器
  3.9  PySpark RDD可視化
  3.10  PySpark RDD編程案例
    3.10.1  合併小文件
    3.10.2  二次排序實現
    3.10.3  Top N實現
    3.10.4  數據聚合計算
第4章  PySpark SQL(初級)
  4.1  PySpark SQL數據抽象
  4.2  PySpark SQL編程模型
  4.3  程序入口SparkSession
  4.4  PySpark SQL中的模式和對象
    4.4.1  模式
    4.4.2  列對象和行對象
  4.5  簡單構造DataFrame
    4.5.1  簡單創建單列和多列DataFrame

    4.5.2  從RDD創建DataFrame
    4.5.3  讀取外部數據源創建DataFrame
  4.6  操作DataFrame
    4.6.1  列的多種引用方式
    4.6.2  對DataFrame執行Transformation轉換操作
    4.6.3  對DataFrame執行Action操作
    4.6.4  對DataFrame執行描述性統計操作
    4.6.5  提取DataFrame Row中特定欄位
    4.6.6  操作DataFrame示例
  4.7  存儲DataFrame
    4.7.1  寫出DataFrame
    4.7.2  存儲模式
    4.7.3  控制DataFrame的輸出文件數量
    4.7.4  控制DataFrame實現分區存儲
  4.8  臨時視圖與SQL查詢
    4.8.1  在PySpark程序中執行SQL語句
    4.8.2  註冊臨時視圖並執行SQL查詢
    4.8.3  使用全局臨時視圖
    4.8.4  直接使用數據源註冊臨時視圖
    4.8.5  查看和管理表目錄
  4.9  緩存DataFrame
    4.9.1  緩存方法
    4.9.2  緩存策略
    4.9.3  緩存表
  4.10  PySpark SQL可視化
    4.10.1  PySpark DataFrame轉換到Pandas
    4.10.2  PySpark SQL DataFrame可視化
  4.11  PySpark SQL編程案例
    4.11.1  實現單詞計數
    4.11.2  用戶數據集分析
    4.11.3  航空公司航班數據集分析
第5章  PySpark SQL(高級)
  5.1  PySpark SQL函數
  5.2  內置標量函數
    5.2.1  日期時間函數
    5.2.2  字元串函數
    5.2.3  數學計算函數
    5.2.4  集合元素處理函數
    5.2.5  其他函數
    5.2.6  函數應用示例
    5.2.7  PySpark 3數組函數
  5.3  聚合與透視函數
    5.3.1  聚合函數
    5.3.2  分組聚合
    5.3.3  數據透視
  5.4  高級分析函數
    5.4.1  使用多維聚合函數
    5.4.2  使用時間窗口聚合
    5.4.3  使用窗口分析函數
  5.5  用戶自定義函數(UDF)

    5.5.1  內部原理
    5.5.2  創建和使用UDF
    5.5.3  特殊處理
  5.6  數據集的join連接
    5.6.1  join表達式和join類型
    5.6.2  執行join連接
    5.6.3  處理重複列名
    5.6.4  join連接策略
  5.7  讀寫Hive表
    5.7.1  PySpark SQL的Hive配置
    5.7.2  PySpark SQL讀寫Hive表
    5.7.3  分桶、分區和排序
  5.8  PySpark SQL編程案例
    5.8.1  電商訂單數據分析
    5.8.2  電影評分數據集分析
第6章  PySpark結構化流(初級)
  6.1  PySpark DStream流簡介
  6.2  PySpark結構化流簡介
  6.3  PySpark結構化流編程模型
  6.4  PySpark結構化流核心概念
    6.4.1  數據源
    6.4.2  輸出模式
    6.4.3  觸發器類型
    6.4.4  數據接收器
    6.4.5  水印
  6.5  使用各種流數據源
    6.5.1  使用Socket數據源
    6.5.2  使用Rate數據源
    6.5.3  使用File數據源
    6.5.4  使用Kafka數據源
  6.6  流 DataFrame操作
    6.6.1  選擇、投影和聚合操作
    6.6.2  執行join連接操作
  6.7  使用數據接收器
    6.7.1  使用File Data Sink
    6.7.2  使用Kafka Data Sink
    6.7.3  使用Foreach Data Sink
    6.7.4  使用Console Data Sink
    6.7.5  使用Memory Data Sink
    6.7.6  Data Sink與輸出模式
  6.8  深入研究輸出模式
    6.8.1  無狀態流查詢
    6.8.2  有狀態流查詢
  6.9  深入研究觸發器
    6.9.1  固定間隔觸發器
    6.9.2  一次性的觸發器
    6.9.3  連續性的觸發器
第7章  PySpark結構化流(高級)(D62min)
  7.1  事件時間和窗口聚合
    7.1.1  固定窗口聚合

    7.1.2  滑動窗口聚合
  7.2  水印
    7.2.1  限制維護的聚合狀態數量
    7.2.2  處理遲到的數據
  7.3  處理重複數據
  7.4  容錯
  7.5  流查詢度量指標
  7.6  結構化流案例:運輸公司車輛超速實時監測
    7.6.1  實現技術剖析
    7.6.2  完整實現代碼
    7.6.3  執行步驟演示
第8章  PySpark大數據分析綜合案例
  8.1  項目需求說明
  8.2  項目架構設計
  8.3  項目實現:數據採集
    8.3.1  爬蟲程序實現:使用requests庫
    8.3.2  爬蟲程序實現:使用Scrapy框架
  8.4  項目實現:數據集成
    8.4.1  Flume簡介
    8.4.2  安裝和配置Flume
    8.4.3  實現數據集成
  8.5  項目實現:數據ELT
  8.6  項目實現:數據清洗與整理
  8.7  項目實現:數據分析
  8.8  項目實現:分析結果導出
  8.9  項目實現:數據可視化
    8.9.1  Flask框架簡介
    8.9.2  ECharts圖表庫介紹
    8.9.3  Flask Web程序開發
    8.9.4  前端ECharts組件開發

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032