幫助中心 | 我的帳號 | 關於我們

Spark編程基礎(Python版第2版)/大數據創新人才培養系列

  • 作者:編者:林子雨|責編:孫澍
  • 出版社:人民郵電
  • ISBN:9787115644039
  • 出版日期:2024/08/01
  • 裝幀:平裝
  • 頁數:271
人民幣:RMB 65 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書以Python作為開發Spark應用程序的編程語言,系統介紹了Spark編程的基礎知識。全書共9章,內容包括大數據技術概述、Spark的設計與運行原理、大數據實驗環境搭建、Spark環境搭建和使用方法、RDD編程、Spark SQL、Spark Streaming、Structured Streaming和Spark MLlib等。本書安排了入門級的編程實踐內容,以助讀者更好地學習和掌握Spark編程方法。本書免費提供全套在線教學資源,包括PPT課件、習題答案、源代碼、數據集、微課視頻、上機實驗指南等。
    本書可以作為高等院校電腦、軟體工程、數據科學與大數據技術等專業的進階級大數據課程教材,用於Spark編程實踐教學,也可以供相關技術人員參考。

作者介紹
編者:林子雨|責編:孫澍

目錄
第1章  大數據技術概述
  1.1  大數據概念與關鍵技術
    1.1.1  大數據概念
    1.1.2  大數據關鍵技術
  1.2  代表性大數據技術
    1.2.1  Hadoop
    1.2.2  Spark
    1.2.3  Flink
    1.2.4  Beam
  1.3  編程語言的選擇
  1.4  在線資源
  1.5  本章小結
  1.6  習題
第2章  Spark的設計與運行原理
  2.1  概述
  2.2  Spark生態系統
  2.3  Spark運行架構
    2.3.1  基本概念
    2.3.2  架構設計方法
    2.3.3  Spark運行的基本流程
    2.3.4  RDD的設計與運行原理
  2.4  Spark部署方式
  2.5  本章小結
  2.6  習題
第3章  大數據實驗環境搭建
  3.1  Linux操作系統的安裝
    3.1.1  下載安裝文件
    3.1.2  Linux操作系統的安裝方式
    3.1.3  虛擬機和Linux操作系統的安裝
  3.2  Hadoop的安裝
    3.2.1  Hadoop簡介
    3.2.2  安裝Hadoop前的準備工作
    3.2.3  Hadoop的3種安裝模式
    3.2.4  下載Hadoop安裝文件
    3.2.5  單機模式配置
    3.2.6  偽分散式模式配置
    3.2.7  分散式模式配置
  3.3  MySQL的安裝
    3.3.1  執行安裝命令
    3.3.2  啟動MySQL服務
    3.3.3  進入MySQL Shell界面
    3.3.4  解決MySQL出現的中文亂碼問題
  3.4  Kafka的安裝
    3.4.1  Kafka簡介
    3.4.2  Kafka的安裝和使用
  3.5  Anaconda的安裝和使用方法
  3.6  本章小結
  實驗1  Linux、Hadoop和MySQL的安裝與使用
第4章  Spark環境搭建和使用方法
  4.1  安裝Spark(Local模式)

    4.1.1  基礎環境
    4.1.2  下載安裝文件
    4.1.3  配置相關文件
    4.1.4  驗證Spark是否安裝成功
  4.2  在PySpark中運行代碼
    4.2.1  pyspark命令
    4.2.2  啟動PySpark
  4.3  使用spark-submit命令提交運行程序
  4.4  Spark集群環境搭建(Standalone模式)
    4.4.1  集群概況
    4.4.2  搭建Hadoop集群
    4.4.3  安裝Anaconda
    4.4.4  在集群中安裝Spark
    4.4.5  配置環境變數
    4.4.6  Spark的配置
    4.4.7  啟動Spark集群
    4.4.8  關閉Spark集群
  4.5  在集群上運行Spark應用程序
    4.5.1  啟動Spark集群
    4.5.2  提交運行程序
  4.6  Spark on YARN模式
    4.6.1  概述
    4.6.2  Spark on YARN模式的部署
    4.6.3  採用YARN模式運行PySpark
    4.6.4  通過spark-submit命令提交程序到YARN集群
    4.6.5  Spark on YARN的兩種部署模式
  4.7  安裝PySpark類庫
    4.7.1  類庫與框架的區別
    4.7.2  PySpark類庫的安裝
  4.8  開發Spark獨立應用程序
    4.8.1  編寫程序
    4.8.2  通過spark-submit運行程序
  4.9  PyCharm的安裝和使用
    4.9.1  安裝PyCharm
    4.9.2  使用PyCharm開發Spark程序
  4.10  本章小結
  4.11  習題
  實驗2  Spark的安裝和使用
第5章  RDD編程
  5.1  RDD編程基礎
    5.1.1  RDD創建
    5.1.2  RDD操作
    5.1.3  持久化
    5.1.4  分區
    5.1.5  綜合實例
  5.2  鍵值對RDD
    5.2.1  鍵值對RDD的創建
    5.2.2  常用的鍵值對轉換操作
    5.2.3  綜合實例
  5.3  數據讀寫

    5.3.1  本地文件系統的數據讀寫
    5.3.2  分散式文件系統HDFS的數據讀寫
    5.3.3  讀寫MySQL資料庫
  5.4  綜合實例
    5.4.1  求TOP值
    5.4.2  文件排序
    5.4.3  二次排序
  5.5  本章小結
  5.6  習題
  實驗3  RDD編程初級實踐
第6章  Spark SQL
  6.1  Spark SQL簡介
    6.1.1  從Shark說起
    6.1.2  Spark SQL架構
    6.1.3  為什麼推出Spark SQL
    6.1.4  Spark SQL的特點
    6.1.5  Spark SQL簡單編程實例
  6.2  結構化數據DataFrame
    6.2.1  DataFrame概述
    6.2.2  DataFrame的優點
  6.3  DataFrame的創建和保存
    6.3.1  Parquet
    6.3.2  JSON
    6.3.3  CSV
    6.3.4  文本文件
    6.3.5  序列集合
  6.4  DataFrame的基本操作
    6.4.1  DSL語法風格
    6.4.2  SQL語法風格
  6.5  從RDD轉換得到DataFrame
    6.5.1  利用反射機制推斷RDD模式
    6.5.2  使用編程方式定義RDD模式
  6.6  使用Spark SQL讀寫資料庫
    6.6.1  準備工作
    6.6.2  讀取MySQL資料庫中的數據
    6.6.3  向MySQL資料庫寫入數據
  6.7  PySpark和pandas的整合
    6.7.1  PySpark和pandas進行整合的可行性
    6.7.2  pandas數據結構
    6.7.3  實例1:兩種DataFrame之間的相互轉換
    6.7.4  實例2:使用自定義聚合函數
  6.8  綜合實例
  6.9  本章小結
  6.10  習題
  實驗4  Spark SQL編程初級實踐
第7章  Spark Streaming
  7.1  流計算概述
    7.1.1  靜態數據和流數據
    7.1.2  批量計算和實時計算
    7.1.3  什麼是流計算

    7.1.4  流計算框架
    7.1.5  流計算處理流程
  7.2  Spark Streaming概述
    7.2.1  Spark Streaming設計
    7.2.2  Spark Streaming與Storm的對比
    7.2.3  從「Hadoop+Storm」架構轉向Spark架構
  7.3  DStream操作概述
    7.3.1  Spark Streaming工作機制
    7.3.2  編寫Spark Streaming程序的基本步驟
    7.3.3  創建StreamingContext對象
  7.4  基本輸入源
    7.4.1  文件流
    7.4.2  套接字流
    7.4.3  RDD隊列流
  7.5  轉換操作
    7.5.1  DStream無狀態轉換操作
    7.5.2  DStream有狀態轉換操作
  7.6  輸出操作
    7.6.1  把DStream輸出到文本文件中
    7.6.2  把DStream寫入關係資料庫中
  7.7  本章小結
  7.8  習題
  實驗5  Spark Streaming編程初級實踐
第8章  Structured Streaming
  8.1  概述
    8.1.1  基本概念
    8.1.2  兩種處理模型
    8.1.3  Structured Streaming和Spark SQL、Spark Streaming的關係
  8.2  編寫Structured Streaming程序的基本步驟
    8.2.1  實現步驟
    8.2.2  測試運行
  8.3  輸入源
    8.3.1  File源
    8.3.2  Kafka源
    8.3.3  Socket源
    8.3.4  Rate源
  8.4  輸出操作
    8.4.1  啟動流計算
    8.4.2  輸出模式
    8.4.3  輸出接收器
  8.5  容錯處理
    8.5.1  從檢查點恢復故障
    8.5.2  故障恢復中的限制
  8.6  遲到數據處理
    8.6.1  事件時間
    8.6.2  遲到數據
    8.6.3  水印
    8.6.4  多水印規則
    8.6.5  處理遲到數據的實例
  8.7  查詢的管理和監控

    8.7.1  管理和監控的方法
    8.7.2  一個監控的實例
  8.8  本章小結
  8.9  習題
  實驗6  Structured Streaming編程實踐
第9章  Spark MLlib
  9.1  基於大數據的機器學習
  9.2  機器學習庫MLlib概述
  9.3  基本的數據類型
    9.3.1  本地向量
    9.3.2  標注點
    9.3.3  本地矩陣
    9.3.4  數據源
  9.4  基本的統計分析工具
    9.4.1  相關性
    9.4.2  假設檢驗
    9.4.3  匯總統計
  9.5  機器學習流水線
    9.5.1  流水線的概念
    9.5.2  流水線的工作過程
  9.6  特徵提取、特徵轉換、特徵選擇及局部敏感散列
    9.6.1  特徵提取
    9.6.2  特徵轉換
    9.6.3  特徵選擇
    9.6.4  局部敏感散列
  9.7  分類演算法
    9.7.1  邏輯斯諦回歸分類演算法
    9.7.2  決策樹分類演算法
  9.8  聚類演算法
    9.8.1  K-Means聚類演算法
    9.8.2  GMM聚類演算法
  9.9  頻繁模式挖掘演算法
    9.9.1  FP-Growth演算法
    9.9.2  PrefixSpan演算法
  9.10  協同過濾演算法
    9.10.1  協同過濾演算法的原理
    9.10.2  ALS演算法
  9.11  模型選擇
    9.11.1  模型選擇工具
    9.11.2  用交叉驗證選擇模型
  9.12  本章小結
  9.13  習題
  實驗7  Spark MLlib編程初級實踐
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032