幫助中心 | 我的帳號 | 關於我們

Spark大數據技術與應用(微課版)/大數據應用人才能力培養新形態系列

  • 作者:編者:賀鑫//史宏|責編:李召
  • 出版社:人民郵電
  • ISBN:9787115630094
  • 出版日期:2024/03/01
  • 裝幀:平裝
  • 頁數:218
人民幣:RMB 59.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書以初學者的角度詳細介紹Spark架構的核心技術,主要圍繞Spark的架構、Spark的開發語言、Spark模塊的主要功能展開;以IDEA為主要開發工具,CentOS為運行環境,採用「理實一體化」授課模式。本書內容包括Spark導論,Spark環境搭建與使用,Scala語言,Spark彈性分散式數據集,Spark SQL、DataFrame和DataSet,Kafka分散式發布-訂閱消息系統,Spark Streaming實時計算框架,Spark MLlib 機器學習演算法庫,Redis資料庫,綜合案例—Spark電商實時數據處理。通過對本書的學習,讀者可以充分理解常用數據預處理方法的精髓,掌握具體技術細節,並在實踐中提升實際開發能力,為學習大數據技能打下紮實基礎。
    本書可以作為高等院校電腦、軟體工程、數據科學與大數據技術等相關專業的教材,也可作為相關技術人員的參考書。

作者介紹
編者:賀鑫//史宏|責編:李召

目錄
第1章  Spark導論
  1.1  認識Spark
    1.1.1  Spark的演進路線
    1.1.2  Spark的特點
    1.1.3  Spark與Hadoop的聯繫
  1.2  Spark的生態系統
    1.2.1  Spark Core
    1.2.2  Spark SQL
    1.2.3  Spark Streaming
    1.2.4  Spark MLlib
    1.2.5  Spark GraphX
  1.3  Spark運行模式
    1.3.1  Standalone模式
    1.3.2  Mesos模式
    1.3.3  YARN模式
  1.4  Spark架構
    1.4.1  Spark架構組成
    1.4.2  Spark架構運行流程
    1.4.3  Spark架構特點
  1.5  Spark應用場景
  1.6  本章小結
  1.7  習題
第2章  Spark環境搭建與使用
  2.1  搭建環境前的準備
    2.1.1  Spark的下載
    2.1.2  Scala的下載
    2.1.3  Spark的前置配置
  2.2  Spark集群的部署與操作
    2.2.1  Spark集群的部署
    2.2.2  Spark集群的啟動與停止
  2.3  第一個Spark程序
  2.4  Spark Shell的啟動
  2.5  本章小結
  2.6  習題
第3章  Scala語言
  3.1  Scala簡介
    3.1.1  什麼是Scala
    3.1.2  Scala的特性
    3.1.3  Scala的優勢
  3.2  Scala的安裝
    3.2.1  Windows下安裝Scala編譯器
    3.2.2  Linux下安裝Scala編譯器
  3.3  Scala基礎
    3.3.1  Scala快速入門
    3.3.2  在IntelliJ IDEA中創建Scala項目
  3.4  Scala的基本語法
    3.4.1  聲明變數
    3.4.2  定義字元串
    3.4.3  數據類型
    3.4.4  運算符

    3.4.5  塊表達式
  3.5  Scala的流程式控制制結構
    3.5.1  順序結構
    3.5.2  分支結構
    3.5.3  循環結構
    3.5.4  breakable和break()方法
  3.6  Scala的方法與函數
    3.6.1  Scala中方法的定義和調用
    3.6.2  Scala中函數的定義和調用
    3.6.3  Scala中將方法轉換成函數
  3.7  Scala面向對象的特性
    3.7.1  類和對象
    3.7.2  private關鍵字
    3.7.3  繼承
    3.7.4  單例對象
    3.7.5  伴生對象
    3.7.6  構造器
    3.7.7  特質
    3.7.8  抽象類
  3.8  Scala的數據結構
    3.8.1  數組
    3.8.2  元組
    3.8.3  集合
  3.9  lazy關鍵字
  實戰訓練:數組合併去重
  3.10  本章小結
  3.11  習題
第4章  Spark彈性分散式數據集
  4.1  RDD簡介
    4.1.1  RDD的產生背景
    4.1.2  RDD的特性
  4.2  RDD的創建操作
    4.2.1  從文件系統中載入數據創建RDD
    4.2.2  通過並行集合創建RDD
    4.2.3  從父RDD轉換成新的子RDD
  4.3  RDD運算元
    4.3.1  轉換運算元
    4.3.2  動作運算元
    4.3.3  RDD常用運算元練習
    4.3.4  運算元進階
  實戰訓練4-1:WordCount詞頻統計案例
  4.4  RDD的分區
  4.5  RDD的依賴關係
    4.5.1  劃分依賴的背景
    4.5.2  劃分依賴的依據
    4.5.3  窄依賴
    4.5.4  寬依賴
    4.5.5  Stage的劃分
  4.6  RDD機制
    4.6.1  持久化機制

    4.6.2  RDD緩存方式
    4.6.3  容錯機制Checkpoint
  4.7  Spark作業流程
    4.7.1  DAG的生成
    4.7.2  任務調度流程
    4.7.3  提交任務的4個階段
  4.8  共享變數
    4.8.1  廣播變數
    4.8.2  累加器
  實戰訓練4-2:通過相關信息計算用戶停留時間
  實戰訓練4-3:統計學生信息
  4.9  本章小結
  4.10  習題
第5章  Spark SQL、DataFrame和DataSet
  5.1  Spark SQL簡介
    5.1.1  Spark SQL的概念
    5.1.2  Spark SQL的特點
    5.1.3  Spark SQL的運行架構
  5.2  DataFrame基礎知識
    5.2.1  DataFrame概念
    5.2.2  創建DataFrame對象
    5.2.3  DataFrame常用操作
  5.3  DataSet基礎知識
    5.3.1  DataSet編程
    5.3.2  DataSet的DSL風格操作
  5.4  將RDD轉為DataFrame的操作
    5.4.1  通過反射推斷Schema
    5.4.2  DSL風格語法
    5.4.3  通過StructType直接指定Schema
  5.5  RDD、DataFrame和DataSet的區別
    5.5.1  RDD的優缺點
    5.5.2  DataFrame的優缺點
    5.5.3  DataSet的優缺點
    5.5.4  Spark SQL的性能與優化
  5.6  通過Spark SQL操作數據源
    5.6.1  操作MySQL數據源
    5.6.2  操作Hive數據源
  實戰訓練5-1:獲取連續活躍用戶的記錄
  實戰訓練5-2:計算店鋪銷售額
  5.7  本章小結
  5.8  習題
第6章  Kafka分散式發布-訂閱消息系統
  6.1  Kafka簡介
    6.1.1  什麼是Kafka
    6.1.2  消息系統簡介
    6.1.3  Kafka術語
  6.2  Kafka與傳統消息系統的區別
    6.2.1  應用場景
    6.2.2  架構模型
    6.2.3  吞吐量

    6.2.4  可用性
    6.2.5  集群負載均衡
  6.3  Kafka工作原理
    6.3.1  Kafka的拓撲結構
    6.3.2  分析Kafka工作流程
  6.4  Kafka集群的部署與測試
    6.4.1  集群部署的基礎環境準備
    6.4.2  安裝Kafka
    6.4.3  啟動Kafka服務並進行測試
  6.5  Kafka的入門使用
    6.5.1  Kafka命令行的入門使用
    6.5.2  Kafka API案例
  6.6  Kafka整合Flume
  6.7  Kafka涉及的問題
    6.7.1  存儲機制
    6.7.2  Kafka是如何保證數據不丟失的
    6.7.3  如何消費已經被消費過的數據
    6.7.4  Kafka Partition和Consumer的數量關係
    6.7.5  Kafka Topic 副本問題
    6.7.6  ZooKeeper如何管理Kafka
  實戰訓練:使用Kafka生產車輛模擬信息
  6.8  本章小結
  6.9  習題
第7章  Spark Streaming實時計算框架
  7.1  流式計算概述
    7.1.1  流式計算簡介
    7.1.2  常用的流式計算框架
  7.2  Spark Streaming概述
    7.2.1  Spark Streaming簡介
    7.2.2  Spark Streaming工作原理
  7.3  Spark的DStream
    7.3.1  DStream概念
    7.3.2  DStream的轉換操作
  7.4  Spark Streaming的數據源
    7.4.1  基本數據源
    7.4.2  高級數據源之Kafka
  7.5  DStream的窗口操作
  7.6  DStream的輸出操作
  7.7  Spark Streaming的Checkpoint機制
    7.7.1  Spark Streaming Checkpoint概述
    7.7.2  Checkpoint-MySQL校驗
    7.7.3  Checkpoint-Redis校驗
  實戰訓練:新聞熱詞排序
  7.8  本章小結
  7.9  習題
第8章  Spark MLlib機器學習演算法庫
  8.1  初識機器學習
    8.1.1  什麼是機器學習
    8.1.2  機器學習的應用
    8.1.3  分類和聚類

    8.1.4  常見的分類與聚類演算法
    8.1.5  監督學習、無監督學習與半監督學習
  8.2  機器學習演算法庫MLlib概述
    8.2.1  MLlib簡介
    8.2.2  Spark機器學習的工作流程
    8.2.3  Spark MLlib的架構
  8.3  數據類型
    8.3.1  本地向量
    8.3.2  標籤點
    8.3.3  本地矩陣
  8.4  Spark MLlib的基本統計方法
    8.4.1  摘要統計
    8.4.2  相關性
    8.4.3  分層抽樣
  8.5  分類和回歸
    8.5.1  線性支持向量機
    8.5.2  邏輯回歸
    8.5.3  線性最小二乘法
    8.5.4  流的線性回歸
  8.6  隨機森林
    8.6.1  隨機注入
    8.6.2  隨機森林的預測
    8.6.3  3個案例
  8.7  樸素貝葉斯
  8.8  協同過濾
    8.8.1  協同過濾推薦演算法的原理
    8.8.2  案例需求
    8.8.3  演算法實現
    8.8.4  計算相似度的3種常用方法
    8.8.5  案例—如何使用協同過濾
    8.8.6  使用協同過濾演算法時的常見問題
  實戰訓練:利用MLlib實現電影推薦引擎
  8.9  本章小結
  8.10  習題
第9章  Redis資料庫
  9.1  Redis簡介
    9.1.1  常見的Redis應用場景
    9.1.2  Redis的特性
    9.1.3  持久化機制
  9.2  Redis的安裝和啟動
    9.2.1  Redis的安裝
    9.2.2  前端啟動
    9.2.3  後端啟動
  9.3  Redis的客戶端
    9.3.1  Redis自帶的客戶端
    9.3.2  Redis桌面管理工具
    9.3.3  Java客戶端Jedis
  9.4  Redis的數據類型
  9.5  Redis的持久化和高可用性
    9.5.1  RDB方式和AOF方式

    9.5.2  Redis的高可用性
  實戰訓練:Spark SQL整合Redis分析電商數據
  9.6  本章小結
  9.7  習題
第10章  綜合案例—Spark電商實時數據處理
  10.1  項目概述
    10.1.1  介紹項目背景
    10.1.2  設計項目架構
  10.2  搭建項目環境
  10.3  初始化項目結構
    10.3.1  創建Maven工程
    10.3.2  構建SparkSession和StreamingContext實例對象
    10.3.3  構建屬性配置文件
    10.3.4  配置Spark Streaming停止工具
  10.4  開發訂單數據模塊
    10.4.1  模擬訂單數據
    10.4.2  啟動Kafka服務
  10.5  訂單數據處理模塊
  10.6  開發報表
  10.7  本章小結

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032