幫助中心 | 我的帳號 | 關於我們

PySpark大數據分析與應用(大數據技術精品系列教材)

  • 作者:編者:戴剛//張良均|責編:初美呈
  • 出版社:人民郵電
  • ISBN:9787115634900
  • 出版日期:2024/04/01
  • 裝幀:平裝
  • 頁數:275
人民幣:RMB 69.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書以Python作為開發語言,系統介紹PySpark開發環境搭建流程及基於PySpark進行大數據分析的相關知識。本書條理清晰、重點突出,理論敘述循序漸進、由淺入深。本書共7章,第1-5章包括PySpark大數據分析概述、PySpark安裝配置、基於PySpark的DataFrame操作、基於PySpark的流式數據處理、基於PySpark的機器學習庫,內容介紹注重理論與實踐相結合,通過典型示例強化PySpark在大數據分析中的實際應用;第6、7章通過基於PySpark的網路招聘信息的職業類型劃分和基於PySpark的信用貸款風險分析兩個完整的案例實戰,結合前5章的PySpark編程知識,實現完整的大數據分析過程。本書大部分章包含實訓和課後習題,讀者通過練習和操作實踐,能夠鞏固所學的內容。
    本書可作為高校數據科學或大數據相關專業的教材,也可作為機器學習愛好者的自學用書。

作者介紹
編者:戴剛//張良均|責編:初美呈

目錄
第1章  PySpark大數據分析概述
  1.1  大數據分析概述
    1.1.1  大數據的概念
    1.1.2  大數據分析的概念
    1.1.3  大數據分析的流程
    1.1.4  大數據分析的應用場景
    1.1.5  大數據技術體系
  1.2  Spark大數據技術框架
    1.2.1  Spark簡介
    1.2.2  Spark特點
    1.2.3  Spark運行架構與流程
    1.2.4  SparkRDD
    1.2.5  Spark生態圈
  1.3  PySpark大數據分析
    1.3.1  PySpark簡介
    1.3.2  PySpark子模塊
  小結
  課後習題
第2章  PySpark安裝配置
  2.1  搭建單機模式的PySpark開發環境
    2.1.1  安裝JDK
    2.1.2  安裝Anaconda
    2.1.3  安裝Hadoop
    2.1.4  安裝MySQL
    2.1.5  安裝Hive
    2.1.6  配置PySpark模塊
    2.1.7  運行JupyterNotebook
  2.2  搭建分散式模式的PySpark開發環境
    2.2.1  安裝配置虛擬機
    2.2.2  安裝Java
    2.2.3  搭建Hadoop分散式集群
    2.2.4  安裝MySQL資料庫
    2.2.5  安裝Hive數據倉庫工具
    2.2.6  搭建Spark完全分散式集群
    2.2.7  安裝PyCham
    2.2.8  安裝Python解釋器及PySpark模塊
  2.3  Python函數式編程
    2.3.1  Python常用數據結構
    2.3.2  Python函數式編程基礎
  小結
  課後習題
第3章  基於PySpark的DataFrame操作
  3.1  SparkSQL概述
    3.1.1  SparkSQL起源與發展歷程
    3.1.2  SparkSQL主要功能
    3.1.3  SparkSQL數據核心抽象DataFrame
  3.2  pyspark.sql模塊
    3.2.1  pyspark.sql模塊簡介
    3.2.2  pyspark.sql模塊核心類
  3.3  DataFrame基礎操作

    3.3.1  創建DataFrame對象
    3.3.2  DataFrame操作
    3.3.3  DataFrame輸出操作
  小結
  實訓
    實訓1  網站搜索熱詞統計分析
    實訓2  大數據崗位招聘信息統計分析
  課後習題
第4章  基於PySpark的流式數據
處理
  4.1  SparkStreaming概述
    4.1.1  流計算簡介
    4.1.2  SparkStreaming基本概念
    4.1.3  SparkStreaming工作原理
    4.1.4  SparkStreaming運行機制
  4.2  pyspark.streaming模塊
    4.2.1  pyspark.streaming模塊簡介
    4.2.2  pyspark.streaming模塊核心類
    4.2.3  DStream基礎操作
  4.3  StructuredStreaming結構化流處理
    4.3.1  StructuredStreaming概述
    4.3.2  StructuredStreaming編程模型
    4.3.3  StructuredStreaming基礎操作
    4.3.4  StructuredStreaming編程步驟
  小結
  實訓
    實訓1  使用SparkStreaming實現菜品價格實時計算
    實訓2  使用SparkStreaming實時判別車輛所屬地
  課後習題
第5章  基於PySpark的機器
學習庫
  5.1  MLlib演算法
    5.1.1  機器學習
    5.1.2  MLlib
    5.1.3  pyspark.ml模塊
  5.2  使用pyspark.ml模塊的轉換器處理和轉換數據
    5.2.1  數據載入及數據集劃分
    5.2.2  數據降維
    5.2.3  數據標準化
    5.2.4  數據類型轉換
  5.3  pyspark.ml模塊的評估器和模型評估
    5.3.1  使用PySpark構建並評估分類模型
    5.3.2  使用PySpark構建並評估回歸模型
    5.3.3  使用PySpark構建並評估聚類模型
    5.3.4  使用PySpark構建並評估智能推薦模型
  小結
  實訓
    實訓1  使用隨機森林模型預測是否批准用戶申請
    實訓2  使用回歸模型實現房價預測
  課後習題

第6章  案例分析:基於PySpark的網路招聘信息的職業類型劃分
  6.1  需求與架構分析
    6.1.1  業務需求分析與技術選型
    6.1.2  系統架構分析
  6.2  數據探索
    6.2.1  數據說明
    6.2.2  數據讀取
    6.2.3  重複數據與空值探索
    6.2.4  異常數據探索
  6.3  數據預處理
    6.3.1  數據清洗
    6.3.2  中文分詞與去停用詞
    6.3.3  詞特徵向量化
  6.4  模型構建與評估
    6.4.1  LDA演算法簡介
    6.4.2  LDA模型構建與評估
    6.4.3  構建LDA模型
  6.5  製作詞雲圖
  小結
第7章  案例分析:基於PySpark的信用貸款風險分析
  7.1  需求與架構分析
    7.1.1  業務需求分析
    7.1.2  系統架構分析
  7.2  數據探索
    7.2.1  數據說明
    7.2.2  建立數據倉庫並導入數據
    7.2.3  用戶信息完善情況與逾期率的關係探索
    7.2.4  用戶信息修改情況與逾期率的關係探索
    7.2.5  用戶借款月份與逾期率的關係探索
  7.3  數據預處理
    7.3.1  計算用戶信息缺失個數及借款月份構建新特徵
    7.3.2  用戶更新信息重建
    7.3.3  用戶登錄信息重建
    7.3.4  分類數據預處理
    7.3.5  字元串欄位編碼處理
    7.3.6  分類數據重編碼
    7.3.7  缺失值處理
  7.4  模型構建與評估
    7.4.1  了解GBTs演算法
    7.4.2  構建GBTs模型
    7.4.3  評估GBTs模型
  7.5  部署和提交PySpark應用程序
    7.5.1  打包PySpark應用程序
    7.5.2  提交PySpark應用程序
  小結
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032