幫助中心 | 我的帳號 | 關於我們

Spark SQL大數據分析快速上手/大數據技術叢書

  • 作者:遲殿委//王澤慧//黃茵茵|責編:夏毓彥
  • 出版社:清華大學
  • ISBN:9787302674863
  • 出版日期:2024/11/01
  • 裝幀:平裝
  • 頁數:220
人民幣:RMB 89 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書內容基於Spark新版本展開,符合企業目前開發需要。本書全面講解Spark SQL相關知識和實戰應用,各章均提供較為豐富的案例及其詳細的操作步驟,並配套示例源碼、數據集、PPT課件和教學大綱。
    本書共10章。第1?3章為Spark SQL的基礎準備部分,內容包括Spark SQL的發展和簡介、Spark的典型數據容器及關係、Spark概述與環境搭建、Spark典型數據結構RDD;第4?7章為Spark SQL的基礎應用部分,內容包括Spark SQL入門實戰(包括Scala編程基礎)、SQL基礎語法、操作多數據源、Spark SQL性能調優等;第8?10章分別通過影評數據分析、商品統計數據分析、咖啡銷售數據分析等3個實戰項目進行鞏固提升。
    本書內容翔實、示例豐富,既可作為Spark初學者、大數據分析人員、大數據應用開發人員的自學手冊,也可作為高等院校或高職高專院校電腦、軟體工程、數據科學與大數據技術、智能科學與技術、人工智慧等專業大數據課程的教材。

作者介紹
遲殿委//王澤慧//黃茵茵|責編:夏毓彥
    遲殿委,南昌大學電腦軟體與理論專業碩士,系統架構設計師。有多年企業軟體研發經驗和豐富的JavaEE、大數據技術培訓經驗,熟練掌握JavaEE與大數據全棧技術框架,擅長JavaEE系統架構設計、大數據分析與挖掘。著有圖書《Hadoop大數據分析技術》 《Hadoop+Spark大數據分析實戰》《Spring Boot企業級開發實戰(視頻教學版)》《深入淺出Java編程》《Spring Boot+Spring Cloud微服務開發》。

目錄
第1章  Spark SQL概述
  1.1  Spark SQL簡介
    1.1.1  什麼是Spark SQL
    1.1.2  Spark SQL的特點
  1.2  Spark數據容器
    1.2.1  什麼是DataFrame
    1.2.2  什麼是DataSet
    1.2.3  Spark SQL與DataFrame
    1.2.4  DataFrame與RDD的差異
第2章  Spark概述及環境搭建
  2.1  Spark概述
    2.1.1  關於Spark
    2.1.2  Spark的基本概念
    2.1.3  Spark集群相關知識
  2.2  Linux環境搭建
    2.2.1  VirtualBox虛擬機的安裝
    2.2.2  安裝Linux操作系統
    2.2.3  SSH工具與使用
    2.2.4  Linux的統一設置
  2.3  Hadoop完全分散式環境搭建
  2.4  Spark的安裝與配置
    2.4.1  本地模式安裝
    2.4.2  偽分佈模式安裝
    2.4.3  完全分佈模式安裝
    2.4.4  SparkonYARN
  2.5  Spark的任務提交
    2.5.1  使用spark-submit提交
    2.5.2  spark-submit參數說明
第3章  Spark的典型數據結構RDD
  3.1  什麼是RDD
  3.2  RDD的主要屬性
  3.3  RDD的特點
  3.4  RDD的創建與處理過程
    3.4.1  RDD的創建
    3.4.2  RDD的處理過程
    3.4.3  RDD的運算元
第4章  Spark SQL入門實戰
  4.1  DataFrame和DataSet實戰體驗
    4.1.1  SparkSession
    4.1.2  DataFrame應用
    4.1.3  DataSet應用
    4.1.4  DataFrame和DataSet之間的交互
  4.2  Scala開發環境搭建及其基礎編程
    4.2.1  開發環境搭建
    4.2.2  Scala基礎編程
  4.3  Spark SQL實戰入門體驗
第5章  Spark SQL語法基礎及應用
  5.1  Hive安裝與元數據存儲配置
    5.1.1  安裝Hive
    5.1.2  配置My SQL存儲元數據

  5.2  Spark SQLDML語句
    5.2.1  插入數據
    5.2.2  載入數據
  5.3  Spark SQL查詢語句
  5.4  Spark SQL函數操作
    5.4.1  內置函數及使用
    5.4.2  自定義函數
第6章  Spark SQL數據源
  6.1  Spark SQL數據載入、存儲概述
    6.1.1  通用load/save函數
    6.1.2  手動指定選項
    6.1.3  在文件上直接進行SQL查詢
    6.1.4  存儲模式
    6.1.5  持久化到表
    6.1.6  桶、排序、分區操作
  6.2  Spark SQL常見結構化數據源
    6.2.1  Parquet文件
    6.2.2  JSON數據集
    6.2.3  Hive表
    6.2.4  其他關係資料庫中的數據表
第7章  Spark SQL性能調優
  7.1  Spark執行流程
  7.2  Spark內存管理
  7.3  Spark的一些概念
  7.4  Spark開發原則
  7.5  Spark調優方法
  7.6  數據傾斜調優
  7.7  Spark執行引擎Tungsten簡介
  7.8  Spark SQL解析引擎Catalyst簡介
第8章  Spark SQL影評大數據分析項目實戰
  8.1  項目介紹
  8.2  項目實現
    8.2.1  引入依賴
    8.2.2  公共類開發
    8.2.3  需求1的實現
    8.2.4  需求2的實現
    8.2.5  需求3的實現
第9章  Spark SQL商品統計分析項目實戰
  9.1  項目介紹
  9.2  項目實現
    9.2.1  引入依賴
    9.2.2  環境測試
    9.2.3  Spark SQL初始化數據
    9.2.4  Spark SQL商品數據分析
第10章  Spark SQL咖啡銷售數據分析項目實戰
  10.1  項目介紹
  10.2  數據預處理與數據分析
    10.2.1  查看咖啡銷售量排名
    10.2.2  觀察咖啡銷售量的分佈情況
  10.3  數據可視化

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032