幫助中心 | 我的帳號 | 關於我們

Spark SQL入門與實踐指南

  • 作者:紀涵//靖曉文//趙政達
  • 出版社:清華大學
  • ISBN:9787302496700
  • 出版日期:2018/04/01
  • 裝幀:平裝
  • 頁數:200
人民幣:RMB 49 元      售價:
放入購物車
加入收藏夾

內容大鋼
    Spark SQL是 Spark大數據框架的一部分,支持使用標準SQL查詢和HiveQL來讀寫數據,可用於結構化數據處理,並可以執行類似SQL的Spark數據查詢,有助於開發人員更快地創建和運行Spark程序。
    紀涵、靖曉文、趙政達著的這本《Spark SQL入門與實踐指南》分為4篇,共9章,第一篇講解了Spark SQL 發展歷史和開發環境搭建。第二篇講解了Spark SQL 實例,使得讀者掌握Spark SQL的入門操作,了解Spark RDD、DataFrame和DataSet,並熟悉 DataFrame 各種操作。第三篇講解了基於WiFi探針的商業大數據分析項目,實例中包含數據採集、預處理、存儲、利用Spark SQL 挖掘數據,一步一步帶領讀者學習Spark SQL強大的數據挖掘功能。第四篇講解了Spark SQL 優化的知識。
    本書適合Spark初學者、Spark數據分析人員以及Spark程序開發人員,也適合高校和培訓學校相關專業的師生教學參考。

作者介紹
紀涵//靖曉文//趙政達

目錄
第一部分 入門篇
第1章 初識Spark SQL
  1.1 Spark SQL的前世今生
  1.2 Spark SQL能做什麼
第2章 Spark安裝、編程環境搭建以及打包提交
  2.1 Spark的簡易安裝
  2.2 準備編寫Spark應用程序的IDEA環境
  2.3 將編寫好的Spark應用程序打包成jar提交到Spark上
第二部分 基礎篇
第3章 Spark上的RDD編程
  3.1 RDD基礎
    3.1.1 創建RDD
    3.1.2 RDD轉化操作、行動操作
    3.1.3 惰性求值
    3.1.4 RDD緩存概述
    3.1.5 RDD基本編程步驟
  3.2 RDD簡單實例—wordcount
  3.3 創建RDD
    3.3.1 程序內部數據作為數據源
    3.3.2 外部數據源
  3.4 RDD操作
    3.4.1 轉化操作
    3.4.2 行動操作
    3.4.3 惰性求值
  3.5 向Spark傳遞函數
    3.5.1 傳入匿名函數
    3.5.2 傳入靜態方法和傳入方法的引用
    3.5.3 閉包的理解
    3.5.4 關於向Spark傳遞函數與閉包的總結
  3.6 常見的轉化操作和行動操作
    3.6.1 基本RDD轉化操作
    3.6.2 基本RDD行動操作
    3.6.3 鍵值對RDD
    3.6.4 不同類型RDD之間的轉換
  3.7 深入理解RDD
  3.8 RDD 緩存、持久化
    3.8.1 RDD緩存
    3.8.2 RDD持久化
    3.8.3 持久化存儲等級選取策略
  3.9 RDD checkpoint容錯機制
第4章 Spark SQL編程入門
  4.1 Spark SQL概述
    4.1.1 Spark SQL是什麼
    4.1.2 Spark SQL通過什麼來實現
    4.1.3 Spark SQL 處理數據的優勢
    4.1.4 Spark SQL數據核心抽象——DataFrame
  4.2 Spark SQL編程入門示例
    4.2.1 程序主入口:SparkSession
    4.2.2 創建 DataFrame
    4.2.3 DataFrame基本操作

    4.2.4 執行SQL查詢
    4.2.5 全局臨時表
    4.2.6 Dataset
    4.2.7 將RDDs轉化為DataFrame
    4.2.8 用戶自定義函數
第5章 Spark SQL的DataFrame操作大全
  5.1 由JSON文件生成所需的DataFrame對象
  5.2 DataFrame上的行動操作
  5.3 DataFrame上的轉化操作
    5.3.1 where條件相關
    5.3.2 查詢指定列
    5.3.3 思維開拓:Column的巧妙應用
    5.3.4 limit操作
    5.3.5 排序操作:order by和sort
    5.3.6 group by操作
    5.3.7 distinct、dropDuplicates去重操作
    5.3.8 聚合操作
    5.3.9 union合併操作
    5.3.10 join操作
    5.3.11 獲取指定欄位統計信息
    5.3.12 獲取兩個DataFrame中共有的記錄
    5.3.13 獲取一個DataFrame中有另一個DataFrame中沒有的記錄
    5.3.14 操作欄位名
    5.3.15 處理空值列
第6章 Spark SQL支持的多種數據源
  6.1 概述
    6.1.1 通用load/save 函數
    6.1.2 手動指定選項
    6.1.3 在文件上直接進行SQL查詢
    6.1.4 存儲模式
    6.1.5 持久化到表
    6.1.6 bucket、排序、分區操作
  6.2 典型結構化數據源
    6.2.1 Parquet 文件
    6.2.2 JSON 數據集
    6.2.3 Hive表
    6.2.4 其他資料庫中的數據表
第三部分 實踐篇
第7章 Spark SQL 工程實戰之基於WiFi探針的商業大數據分析技術
  7.1 功能需求
    7.1.1 數據收集
    7.1.2 數據清洗
    7.1.3 客流數據分析
    7.1.4 數據導出
  7.2 系統架構
  7.3 功能設計
  7.4 資料庫結構
  7.5 本章小結
第8章 第一個Spark SQL應用程序
  8.1 完全分散式環境搭建

    8.1.1 Java 環境配置
    8.1.2 Hadoop 安裝配置
    8.1.3 Spark安裝配置
  8.2 數據清洗
  8.3 數據處理流程
  8.4 Spark程序遠程調試
    8.4.1 導出jar包
    8.4.2 IDEA配置
    8.4.3 服務端配置
  8.5 Spark的Web界面
  8.6 本章小結
第四部分 優化篇
第9章 讓Spark程序再快一點
  9.1 Spark執行流程
  9.2 Spark內存簡介
  9.3 Spark的一些概念
  9.4 Spark編程四大守則
  9.5 Spark調優七式
  9.6 解決數據傾斜問題
  9.7 Spark 執行引擎 Tungsten 簡介
  9.8 Spark SQL解析引擎Catalyst 簡介
  9.9 本章小結

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032