幫助中心 | 我的帳號 | 關於我們

PySpark大數據分析實戰/大數據科學叢書

  • 作者:編者:伍鮮//常麗娟|責編:張淑謙
  • 出版社:機械工業
  • ISBN:9787111739593
  • 出版日期:2023/12/01
  • 裝幀:平裝
  • 頁數:372
人民幣:RMB 119 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書是PySpark大數據分析的入門讀物,適合有一定Python基礎的讀者學習使用。本書基於最新版本的PySpark 3.4.x編寫,全書共11章,系統地介紹了PySpark大數據分析的方法和技巧,內容涵蓋了大數據的相關技術、PySpark的基本概念、Spark環境搭建、數據分析的基本概念及相關工具、開發工具的選擇、Spark核心編程和Spark SQL操作等基礎知識和核心技術,以及Spark流式數據處理、Spark機器學習庫MLlib和基於協同過濾的圖書推薦系統等高級主題。本書通過多個實戰案例,帶領讀者掌握使用Python和Spark進行大數據分析的方法和技巧,從而提高讀者的數據處理能力和業務價值。
    本書內容全面、示例豐富、講解清晰,讀者可以直接應用書中的案例。本書適合自學,也可作為電腦、軟體工程、數據科學與大數據等專業的教學參考書,用於指導大數據分析編程實踐,還可供相關技術人員參考。

作者介紹
編者:伍鮮//常麗娟|責編:張淑謙
    伍鮮,就職于中電金信軟體有限公司,擔任高級軟體工程師。擁有多年金融領域大數據處理實戰經驗,曾負責多家銀行的Teradata數據倉庫、FusionInsight大數據集群、阿里雲大數據倉庫、智能營銷客戶集市和客戶中心建設。     熱衷於各種主流技術,對大數據技術棧Hadoop、Hive、Spark、Kafka等有深入研究。熱愛數據科學、機器學習、雲計算、人工智慧通過了微軟Azure開發人員、Azure數據工程師Azure解決方案架構師專家認證,對Databricks的使用有豐富的經驗。

目錄
前言
第1章  初識PySpark
  1.1  關於數據
  1.2  了解Hadoop
    1.2.1  分散式文件系統HDFS
    1.2.2  分散式計算框架MapReduce
    1.2.3  資源調度管理框架YARN
  1.3  了解Hive
  1.4  了解Spark
    1.4.1  Spark是什麼
    1.4.2  Spark的發展歷程
    1.4.3  Spark的特點
    1.4.4  Spark的生態系統
    1.4.5  Spark的部署模式
    1.4.6  Spark的運行架構
  1.5  PySpark庫介紹
  1.6  本章小結
第2章  Spark環境搭建
  2.1  安裝環境準備
    2.1.1  操作系統準備
    2.1.2  Java環境準備
    2.1.3  Python環境準備
    2.1.4  Spark安裝包下載
    2.1.5  Hadoop安裝包下載
  2.2  Spark本地模式安裝
    2.2.1  使用互動式pyspark運行代碼
    2.2.2  寬窄依賴和階段劃分
    2.2.3  使用spark-submit提交代碼
  2.3  Spark獨立集群安裝
    2.3.1  配置並啟動Spark集群
    2.3.2  使用spark-submit提交代碼
    2.3.3  Spark History Server歷史服務
    2.3.4  獨立集群模式的代碼運行流程
  2.4  Spark on YARN模式安裝
    2.4.1  安裝Hadoop集群
    2.4.2  格式化NameNode
    2.4.3  啟動Hadoop集群
    2.4.4  配置Spark運行在YARN上
    2.4.5  使用spark-submit提交代碼
    2.4.6  Spark on YARN模式代碼運行流程
  2.5  雲服務模式Databricks介紹
    2.5.1  Databricks基本概念
    2.5.2  創建集群
    2.5.3  數據集成
    2.5.4  創建筆記本
    2.5.5  運行案例
    2.5.6  創建作業
    2.5.7  運行作業
    2.5.8  其他類型的作業
  2.6  本章小結

第3章  數據分析基礎
  3.1  什麼是數據分析
  3.2  Python數據分析工具介紹
    3.2.1  數學計算庫NumPy介紹
    3.2.2  數據分析庫Pandas介紹
  3.3  數據分析圖表介紹
  3.4  Python數據可視化工具介紹
    3.4.1  Matplotlib介紹
    3.4.2  Seaborn介紹
    3.4.3  Pyecharts介紹
    3.4.4  三種可視化工具的對比
  3.5  本章小結
第4章  選擇合適的開發工具
  4.1  使用Databricks探索數據
    4.1.1  使用筆記本開發代碼
    4.1.2  【實戰案例】阿凡達電影評價分析
  4.2  使用JupyterLab探索數據
    4.2.1  創建虛擬環境
    4.2.2  安裝JupyterLab
    4.2.3  集成Spark引擎
    4.2.4  【實戰案例】二手房數據分析
  4.3  使用PyCharm探索數據
    4.3.1  安裝PyCharm
    4.3.2  安裝Python
    4.3.3  創建PyCharm項目
    4.3.4  PyCharm插件介紹
    4.3.5  【實戰案例】招聘信息數據分析
  4.4  本章小結
第5章  核心功能Spark Core
  5.1  SparkContext介紹
  5.2  RDD介紹
  5.3  RDD的特性
  5.4  RDD的創建
    5.4.1  通過並行化本地集合創建RDD
    5.4.2  通過外部文件系統數據創建RDD
    5.4.3  通過已存在的RDD衍生新的RDD
  5.5  RDD的運算元
    5.5.1  什麼是運算元
    5.5.2  運算元的分類
  5.6  常用的Transformation運算元
    5.6.1  基本運算元
    5.6.2  二元組相關的運算元
    5.6.3  分區相關的運算元
  5.7  常用的Action運算元
    5.7.1  基本運算元
    5.7.2  Executor端執行的運算元
  5.8  RDD的持久化
    5.8.1  緩存
    5.8.2  緩存的特點
    5.8.3  檢查點

    5.8.4  緩存和檢查點的比較
  5.9  共享變數
    5.9.1  廣播變數
    5.9.2  累加器
  5.10  【實戰案例】共享單車租賃數據分析
    5.10.1  數據集成
    5.10.2  不同月份的租賃數據分析
    5.10.3  不同時間的租賃數據分析
    5.10.4  不同周期的租賃數據分析
    5.10.5  不同維度的租賃數據分析
    5.10.6  天氣對租賃需求的影響
    5.10.7  溫度、風速對租賃需求的影響
  5.11  本章小結
第6章  結構化數據處理Spark SQL
  6.1  Spark SQL概述
    6.1.1  什麼是Spark SQL
    6.1.2  Spark SQL的特點
  6.2  Spark SQL的發展歷程
    6.2.1  從HDFS到Hive
    6.2.2  從Hive到Shark
    6.2.3  從Shark到Spark SQL
  6.3  SparkSession介紹
  6.4  DataFrame概述
    6.4.1  什麼是DataFrame
    6.4.2  DataFrame的組成
  6.5  DataFrame的創建
    6.5.1  通過RDD創建
    6.5.2  通過Pandas的DataFrame創建
    6.5.3  通過外部數據創建
  6.6  DataFrame的基本操作
    6.6.1  DSL語法風格
    6.6.2  Spark Join策略介紹
    6.6.3  SQL語法風格
  6.7  DataFrame的函數操作
    6.7.1  內置函數
    6.7.2  窗口函數
    6.7.3  自定義函數
  6.8  DataFrame的數據清洗
    6.8.1  刪除重複行
    6.8.2  缺失值的處理
  6.9  DataFrame的持久化
  6.10  DataFrame的數據寫出
    6.10.1  寫出數據到文件
    6.10.2  寫出數據到資料庫
  6.11  【實戰案例】世界盃數據可視化分析
    6.11.1  世界盃成績匯總信息分析
    6.11.2  世界盃比賽信息分析
  6.12  本章小結
第7章  集成Hive數據倉庫
  7.1  Spark on Hive操作數據倉庫

    7.1.1  安裝Hive
    7.1.2  啟動元數據服務
    7.1.3  配置Spark on Hive
    7.1.4  驗證Spark on Hive
  7.2  使用MySQL替換Hive元數據服務
    7.2.1  初始化MySQL
    7.2.2  配置Spark on MySQL
    7.2.3  驗證Spark on MySQL
  7.3  【實戰案例】基於Hive數據倉庫的電商數據分析
    7.3.1  數據集成
    7.3.2  爆款產品分析
    7.3.3  月交易情況分析
    7.3.4  忠誠客戶分析
    7.3.5  客戶區域分析
  7.4  本章小結
第8章  Spark Streaming流式數據處理
  8.1  流式數據處理概述
    8.1.1  靜態數據和流式數據
    8.1.2  批量計算和實時計算
    8.1.3  流式計算
  8.2  Spark Streaming概述
  8.3  StreamingContext介紹
  8.4  DStream介紹
  8.5  DStream的創建
    8.5.1  通過文件創建
    8.5.2  通過套接字創建
    8.5.3  通過RDD隊列創建
  8.6  DStream的Transformation操作
    8.6.1  無狀態轉換
    8.6.2  有狀態轉換
  8.7  DStream的輸出操作
  8.8  DStream的SQL操作
  8.9  DStream的持久化
  8.10  【實戰案例】地震數據處理分析
    8.10.1  數據集成
    8.10.2  震級大小分佈分析
    8.10.3  震源深度分佈分析
    8.10.4  震中坐標分佈分析
    8.10.5  中等地震分佈分析
  8.11  本章小結
第9章  Structured Streaming結構化流處理
  9.1  編程模型
    9.1.1  基本概念
    9.1.2  事件時間和延遲數據
    9.1.3  容錯語義
  9.2  流式DataFrame的創建
    9.2.1  通過文件源創建
    9.2.2  通過Socket源創建
    9.2.3  通過Rate源創建
    9.2.4  通過Kafka源創建

  9.3  流式DataFrame的操作
    9.3.1  事件時間窗口
    9.3.2  處理延遲數據和水印
    9.3.3  連接操作
    9.3.4  消除重複數據
    9.3.5  不支持的操作
  9.4  啟動流式處理查詢
    9.4.1  輸出模式
    9.4.2  輸出接收器
    9.4.3  觸發器
  9.5  管理流式查詢
  9.6  監控流式查詢
  9.7  【實戰案例】氣象數據處理分析
    9.7.1  數據集成
    9.7.2  雲量分佈分析
    9.7.3  氣溫分佈分析
    9.7.4  降水量分佈分析
  9.8  本章小結
第10章  Spark機器學習庫MLlib
  10.1  機器學習介紹
    10.1.1  基本概念
    10.1.2  評估指標
    10.1.3  主要過程
    10.1.4  基於大數據的機器學習
  10.2  MLlib介紹
  10.3  數據預處理
    10.3.1  缺失值處理
    10.3.2  無量綱化處理
    10.3.3  特徵數據處理
  10.4  特徵提取和轉換
  10.5  回歸演算法介紹
    10.5.1  線性回歸演算法介紹
    10.5.2  回歸樹演算法介紹
  10.6  分類演算法介紹
    10.6.1  邏輯回歸演算法介紹
    10.6.2  支持向量機演算法介紹
  10.7  聚類演算法介紹
    10.7.1  K-means演算法介紹
    10.7.2  高斯混合模型介紹
  10.8  【實戰案例】信用卡欺詐數據分析
    10.8.1  數據預覽
    10.8.2  機器學習訓練
  10.9  本章小結
第11章  綜合實戰:基於協同過濾的圖書推薦系統
  11.1  項目介紹
  11.2  協同過濾演算法
    11.2.1  協同過濾演算法介紹
    11.2.2  相似度度量
    11.2.3  交替最小二乘法
  11.3  項目實現

    11.3.1  數據集成
    11.3.2  數據分析
    11.3.3  結果導出
  11.4  數據可視化
    11.4.1  Flask框架介紹
    11.4.2  推薦結果展示
  11.5  項目部署
  11.6  本章小結
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032