幫助中心 | 我的帳號 | 關於我們

Spark入門與大數據分析實戰/大數據技術叢書

  • 作者:遲殿委//李超|責編:夏毓彥
  • 出版社:清華大學
  • ISBN:9787302637981
  • 出版日期:2023/07/01
  • 裝幀:平裝
  • 頁數:252
人民幣:RMB 79 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書基於Spark 3.3.1框架展開,系統介紹Spark生態系統各組件的操作,以及相應的大數據分析方法。本書各章節均提供豐富的示例及其詳細的操作步驟,並配套示例源碼、PPT課件和教學大綱。
    本書共分11章,內容包括Scala編程基礎、Spark框架全生態體驗、Spark RDD、Spark SQL、Kafka、Spark Streaming、Spark ML、Spark GraphX、Redis等技術框架和應用,並通過廣告點擊實時大數據分析和電影影評大數據分析兩個綜合項目進行實戰提升。
    本書適合Spark框架初學者,既可以作為大數據分析技術、大數據應用開發工程師的查詢手冊,也可以作為高等院校或高職高專電腦技術、軟體工程、數據科學與大數據科學、智能科學與技術、人工智慧等專業大數據課程的教材。

作者介紹
遲殿委//李超|責編:夏毓彥
    遲殿委,南昌大學電腦軟體與理論專業碩士,系統架構設計師。有多年企業軟體研發經驗和豐富的JavaEE、大數據技術培訓經驗,熟練掌握JavaEE與大數據全棧技術框架,擅長JavaEE系統架構設計、大數據分析與挖掘。著有圖書《Hadoop大數據分析技術》 《Hadoop+Spark大數據分析實戰》《Spring Boot企業級開發實戰(視頻教學版)》《深入淺出Java編程》《Spring Boot+Spring Cloud微服務開發》。

目錄
第1章  Spark開發之Scala編程基礎
  1.1  開發環境搭建
  1.2  基礎語法
  1.3  函數
  1.4  控制語句
  1.5  函數式編程
  1.6  模式匹配
  1.7  類和對象
  1.8  異常處理
  1.9  Trait(特徵)
  1.10  文件I/O
第2章  Spark框架全生態體驗
  2.1  Spark概述
    2.1.1  關於Spark
    2.1.2  Spark的基本概念
    2.1.3  Spark集群模式
  2.2  Linux環境搭建
    2.2.1  VirtualBox虛擬機安裝
    2.2.2  安裝Linux操作系統
    2.2.3  SSH工具與使用
    2.2.4  Linux統一設置
  2.3  Hadoop安裝與配置
    2.3.1  Hadoop安裝環境準備
    2.3.2  Hadoop偽分散式安裝
    2.3.3  Hadoop完全分散式環境搭建
  2.4  Spark安裝與配置
    2.4.1  本地模式安裝
    2.4.2  偽分佈模式安裝
    2.4.3  完全分佈模式安裝
    2.4.4  Spark on YARN
  2.5  spark-submit
    2.5.1  使用spark-submit提交
    2.5.2  spark-submit參數說明
  2.6  DataFrame
    2.6.1  DataFrame概述
    2.6.2  DataFrame的基礎應用
  2.7  Spark SQL
    2.7.1  快速示例
    2.7.2  read和write
  2.8  Spark Streaming
  2.9  共享變數
    2.9.1  廣播變數
    2.9.2  累加器
第3章  Spark RDD彈性分散式數據集
  3.1  什麼是RDD
  3.2  RDD的主要屬性
  3.3  RDD的特點
    3.3.1  彈性
    3.3.2  分區
    3.3.3  只讀

    3.3.4  依賴(血緣)
    3.3.5  緩存
    3.3.6  checkpoint
  3.4  RDD的創建與處理過程
    3.4.1  RDD的創建
    3.4.2  RDD的處理過程
    3.4.3  RDD的運算元
    3.4.4  常見的轉換運算元
    3.4.5  常見的行動運算元
第4章  Spark SQL結構化數據文件處理
  4.1  Spark SQL概述
    4.1.1  什麼是Spark SQL
    4.1.2  Spark SQL的特點
    4.1.3  什麼是DataFrame
    4.1.4  什麼是DataSet
  4.2  Spark SQL編程
    4.2.1  SparkSession
    4.2.2  使用DataFrame進行編程
    4.2.3  使用DataSet進行編程
    4.2.4  DataFrame和DataSet之間的交互
    4.2.5  使用IDEA 創建Spark SQL程序
    4.2.6  自定義Spark SQL函數
  4.3  Spark SQL數據源
    4.3.1  通用載入和保存函數
    4.3.2  載入JSON文件
    4.3.3  讀取Parquet文件
    4.3.4  JDBC
第5章  Kafka實戰
  5.1  Kafka的特點
  5.2  Katka術語
  5.3  Kafka單機部署
  5.4  Kafka集群部署
第6章  Spark Streaming實時計算
  6.1  Spark Streaming概述
    6.1.1  Spark Streaming是什麼
    6.1.2  Spark Streaming特點
    6.1.3  Spark Streaming架構
  6.2  DStream入門
    6.2.1  WordCount案例
    6.2.2  WordCount案例解析
  6.3  DStream創建
    6.3.1  RDD隊列
    6.3.2  自定義數據源
    6.3.3  Katka數據源
  6.4  DStream實戰
    6.4.1  從埠讀取數據
    6.4.2  FileStream
    6.4.3  窗口函數
    6.4.4  updateStateByKey
  6.5  Structured Streaming

    6.5.1  概述
    6.5.2  快速示例
第7章  Spark ML機器學習
  7.1  機器學習
  7.2  Spark ML
  7.3  典型機器學習流程介紹
    7.3.1  提出問題
    7.3.2  假設函數
    7.3.3  損失函數
    7.3.4  訓練模型確定參數
  7.4  經典演算法模型實戰
    7.4.1  聚類演算法實戰
    7.4.2  回歸演算法實戰
    7.4.3  協同過濾演算法實戰
    7.4.4  分類演算法實戰
第8章  Spark Graphx圖計算
  8.1  Spark GraphX
  8.2  Spark GraphX的抽象
  8.3  Spark GraphX圖的構建
  8.4  Spark GraphX圖的計算模式
  8.5  GraphX3個主要演算法實戰
  8.6  GraphX綜合應用項目實戰
第9章  Redis資料庫入門
  9.1  Redis環境安裝
    9.1.1  簡介
    9.1.2  安裝
    9.1.3  Java客戶端
  9.2  Redis常見數據類型
    9.2.1  key
    9.2.2  string類型
    9.2.3  list
    9.2.4  set
    9.2.5  sorted set
    9.2.6  hash
  9.3  Redis排序
  9.4  Redis事務
  9.5  Redis發布訂閱及示例
  9.6  Redis持久化
第10章  廣告點擊實時大數據分析項目實戰
  10.1  項目環境準備
  10.2  數據生成模塊
  10.3  從Kafka讀取數據
    10.3.1  bean類AdsInfo
    10.3.2  工具類MyKatkaUtil
    10.3.3  從Kafka消費數據
  10.4  數據統計實現
    10.4.1  每天每地區熱門廣告點擊率Top3
    10.4.2  最近1小時內廣告點擊量實時統計
第11章  電影影評大數據分析項目實戰
  11.1  項目介紹

  11.2  項目實現
    11.2.1  公共代碼開發
    11.2.2  平均評分最高的前10部電影
    11.2.3  電影類別及其平均評分
    11.2.4  評分次數最多的前10部電影

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032