幫助中心 | 我的帳號 | 關於我們

Spark編程基礎(Python版)/大數據創新人才培養系列

  • 作者:編者:林子雨|責編:鄒文波
  • 出版社:人民郵電
  • ISBN:9787115524393
  • 出版日期:2020/04/01
  • 裝幀:平裝
  • 頁數:234
人民幣:RMB 49.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書以Python作為開發Spark應用程序的編程語言,系統介紹了Spark編程的基礎知識。全書共8章,內容包括大數據技術概述、Spark的設計與運行原理、Spark環境搭建和使用方法、RDD編程、Spark SQL、Spark Streaming、Structured Streaming、Spark MLlib等。本書在相關章安排了入門級的編程實踐操作,以便讀者能更好地學習和掌握Spark編程方法。本書網站免費提供全套的在線教學資源,包括講義PPT、習題、源代碼、軟體、數據集、授課視頻、上機實驗指南等。
    本書可以作為高等院校電腦、軟體工程、數據科學與大數據技術等專業的進階級大數據課程教材,用於指導Spark編程實踐,也可供相關技術人員參考。

作者介紹
編者:林子雨|責編:鄒文波

目錄
第1章  大數據技術概述
  1.1  大數據概念與關鍵技術
    1.1.1  大數據的概念
    1.1.2  大數據關鍵技術
  1.2  代表性大數據技術
    1.2.1  Hadoop
    1.2.2  Spark
    1.2.3  Flink
    1.2.4  Beam
  1.3  編程語言的選擇
  1.4  在線資源
  1.5  本章小結
  1.6  習題
  實驗1  Linux系統的安裝和常用命令
第2章  Spark的設計與運行原理
  2.1  概述
  2.2  Spark生態系統
  2.3  Spark運行架構
    2.3.1  基本概念
    2.3.2  架構設計
    2.3.3  Spark運行基本流程
    2.3.4  RDD的設計與運行原理
  2.4  Spark的部署方式
  2.5  本章小結
  2.6  習題
第3章  Spark環境搭建和使用方法
  3.1  安裝Spark
    3.1.1  基礎環境
    3.1.2  下載安裝文件
    3.1.3  配置相關文件
    3.1.4  驗證Spark是否安裝成功
    3.1.5  Spark和Hadoop的交互
  3.2  在pyspark中運行代碼
    3.2.1  pyspark命令
    3.2.2  啟動pyspark
  3.3  開發Spark獨立應用程序
    3.3.1  編寫程序
    3.3.2  通過spark-submit運行程序
  3.4  Spark集群環境搭建
    3.4.1  集群概況
    3.4.2  搭建Hadoop集群
    3.4.3  在集群中安裝Spark
    3.4.4  配置環境變數
    3.4.5  Spark的配置
    3.4.6  啟動Spark集群
    3.4.7  關閉Spark集群
  3.5  在集群上運行Spark應用程序
    3.5.1  啟動Spark集群
    3.5.2  採用獨立集群管理器
    3.5.3  採用Hadoop YARN管理器

  3.6  本章小結
  3.7  習題
  實驗2  Spark和Hadoop的安裝
第4章  RDD編程
  4.1  RDD編程基礎
    4.1.1  RDD創建
    4.1.2  RDD操作
    4.1.3  持久化
    4.1.4  分區
    4.1.5  一個綜合實例
  4.2  鍵值對RDD
    4.2.1  鍵值對RDD的創建
    4.2.2  常用的鍵值對轉換操作
    4.2.3  一個綜合實例
  4.3  數據讀寫
    4.3.1  文件數據讀寫
    4.3.2  讀寫HBase數據
  4.4  綜合實例
    4.4.1  求TOP值
    4.4.2  文件排序
    4.4.3  二次排序
  4.5  本章小結
  4.6  習題
  實驗3  RDD編程初級實踐
第5章  Spark SQL
  5.1  Spark SQL簡介
    5.1.1  從Shark說起
    5.1.2  Spark SQL架構
    5.1.3  為什麼推出Spark SQL
  5.2  DataFrame概述
  5.3  DataFrame的創建
  5.4  DataFrame的保存
  5.5  DataFrame的常用操作
  5.6  從RDD轉換得到DataFrame
    5.6.1  利用反射機制推斷RDD模式
    5.6.2  使用編程方式定義RDD模式
  5.7  使用Spark SQL讀寫資料庫
    5.7.1  準備工作
    5.7.2  讀取MySQL資料庫中的數據
    5.7.3  向MySQL資料庫寫入數據
  5.8  本章小結
  5.9  習題
  實驗4  Spark SQL編程初級實踐
第6章  Spark Streaming
  6.1  流計算概述
    6.1.1  靜態數據和流數據
    6.1.2  批量計算和實時計算
    6.1.3  流計算概念
    6.1.4  流計算框架
    6.1.5  流計算處理流程

  6.2  Spark Streaming
    6.2.1  Spark Streaming設計
    6.2.2  Spark Streaming與Storm的對比
    6.2.3  從「Hadoop+Storm」架構轉向Spark架構
  6.3  DStream操作概述
    6.3.1  Spark Streaming工作機制
    6.3.2  編寫Spark Streaming程序的基本步驟
    6.3.3  創建StreamingContext對象
  6.4  基本輸入源
    6.4.1  文件流
    6.4.2  套接字流
    6.4.3  RDD隊列流
  6.5  高級數據源
    6.5.1  Kafka簡介
    6.5.2  Kafka準備工作
    6.5.3  Spark準備工作
    6.5.4  編寫Spark Streaming程序使用Kafka數據源
  6.6  轉換操作
    6.6.1  DStream無狀態轉換操作
    6.6.2  DStream有狀態轉換操作
  6.7  輸出操作
    6.7.1  把DStream輸出到文本文件中
    6.7.2  把DStream寫入到關係資料庫中
  6.8  本章小結
  6.9  習題
  實驗5  Spark Streaming編程初級實踐
第7章  Structured Streaming
  7.1  概述
    7.1.1  基本概念
    7.1.2  兩種處理模型
    7.1.3  Structured Streaming和Spark SQL、Spark Streaming的關係
  7.2  編寫Structured Streaming程序的基本步驟
    7.2.1  實現步驟
    7.2.2  測試運行
  7.3  輸入源
    7.3.1  File源
    7.3.2  Kafka源
    7.3.3  Socket源
    7.3.4  Rate源
  7.4  輸出操作
    7.4.1  啟動流計算
    7.4.2  輸出模式
    7.4.3  輸出接收器
  7.5  容錯處理
    7.5.1  從檢查點恢復故障
    7.5.2  故障恢復中的限制
  7.6  遲到數據處理
    7.6.1  事件時間
    7.6.2  遲到數據
    7.6.3  水印

    7.6.4  多水印規則
    7.6.5  處理遲到數據的實例
  7.7  查詢的管理和監控
    7.7.1  管理和監控的方法
    7.7.2  一個監控的實例
  7.8  本章小結
  7.9  習題
  實驗6  Structured Streaming編程實踐
第8章  Spark MLlib
  8.1  基於大數據的機器學習
  8.2  機器學習庫MLlib概述
  8.3  基本數據類型
    8.3.1  本地向量
    8.3.2  標注點
    8.3.3  本地矩陣
  8.4  機器學習流水線
    8.4.1  流水線的概念
    8.4.2  流水線工作過程
  8.5  特徵提取、轉換和選擇
    8.5.1  特徵提取
    8.5.2  特徵轉換
    8.5.3  特徵選擇
    8.5.4  局部敏感哈希
  8.6  分類演算法
    8.6.1  邏輯斯蒂回歸分類器
    8.6.2  決策樹分類器
  8.7  聚類演算法
    8.7.1  K-Means聚類演算法
    8.7.2  GMM聚類演算法
  8.8  協同過濾演算法
    8.8.1  推薦演算法的原理
    8.8.2  ALS演算法
  8.9  模型選擇和超參數調整
    8.9.1  模型選擇工具
    8.9.2  用交叉驗證選擇模型
  8.10  本章小結
  8.11  習題
  實驗7  Spark機器學習庫MLlib編程實踐
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032