幫助中心 | 我的帳號 | 關於我們

劍指大數據(Hive學習精要)/程序員硬核技術叢書

  • 作者:編者:尚矽谷教育|責編:張夢菲//李冰
  • 出版社:電子工業
  • ISBN:9787121477270
  • 出版日期:2024/05/01
  • 裝幀:平裝
  • 頁數:358
人民幣:RMB 109 元      售價:
放入購物車
加入收藏夾

內容大鋼
    Hive是大數據領域的一個重要開發工具。本書基於Hive3.1.3版本進行編寫,首先,簡單介紹了Hive的起源和發展,以及Hive的安裝和部署;其次,分別介紹了Hive的數據定義語言、數據操作語言、查詢語言,以及各種函數,其中穿插安排了大量的綜合案例練習;再次,講解了分區表和分桶表,以及文件的壓縮;最後,重點講解了Hive在使用不同執行引擎時的企業級性能調優手段。
    本書廣泛適用於大數據的學習者和從業人員、Hive初學者,以及高等院校大數據相關專業的學生,同時可作為大數據學習的必備書籍。

作者介紹
編者:尚矽谷教育|責編:張夢菲//李冰

目錄
第1章  Hive入門
  1.1  什麼是Hadoop
  1.2  什麼是Hive
  1.3  Hive的架構
  1.4  學前導讀
    1.4.1  學習的基本要求
    1.4.2  環境準備
  1.5  本章總結
第2章  Hive的安裝部署
  2.1  Hive的安裝
    2.1.1  Hive初體驗
    2.1.2  MySQL的安裝和元數據配置
    2.1.3  Hive的服務部署
  2.2  Hive的使用技巧
    2.2.1  常用交互命令
    2.2.2  參數配置方式
    2.2.3  常見屬性配置
  2.3  本章總結
第3章  數據定義語言
  3.1  資料庫的定義
  3.2  表的定義
    3.2.1  創建表
    3.2.2  表的其他定義語言
  3.3  本章總結
第4章  數據操作語言
  4.1  數據載入
  4.2  數據插入
    4.2.1  將查詢結果插入表中
    4.2.2  將給定values插入表中
    4.2.3  將查詢結果寫入目標路徑
  4.3  數據的導出和導入
  4.4  本章總結
第5章  查詢
  5.1  數據準備
  5.2  基本查詢
    5.2.1  select子句——全表和特定列查詢
    5.2.2  列別名
    5.2.3  limit子句
    5.2.4  order by子句
    5.2.5  where子句
    5.2.6  關係運算符
    5.2.7  邏輯運算符
    5.2.8  算術運算符
  5.3  分組聚合
    5.3.1  聚合函數
    5.3.2  group by子句
    5.3.3  having子句
  5.4  join連接
    5.4.1  join連接語法的簡介與表別名
    5.4.2  數據準備

    5.4.3  連接分類
    5.4.4  多表連接
    5.4.5  笛卡兒積連接
    5.4.6  join連接與MapReduce程序
    5.4.7  聯合(union&union all)
  5.5  本章總結
第6章  綜合案例練習之基礎查詢
  6.1  環境準備
  6.2  簡單查詢練習
  6.3  匯總與分組練習
    6.3.1  匯總練習
    6.3.2  分組練習
    6.3.3  對分組結果的條件查詢
    6.3.4  查詢結果排序和分組指定條件
  6.4  複雜查詢練習
  6.5  多表查詢練習
    6.5.1  表連接
    6.5.2  多表連接
  6.6  本章總結
第7章  初級函數
  7.1  函數簡介
  7.2  單行函數
    7.2.1  數值函數
    7.2.2  字元串函數
    7.2.3  日期函數
    7.2.4  流程式控制制函數
    7.2.5  集合函數
    7.2.6  案例演示
  7.3  高級聚合函數
  7.4  本章總結
第8章  綜合案例練習之初級函數
  8.1  環境準備
    8.1.1  用戶信息表
    8.1.2  商品信息表
    8.1.3  商品品類信息表
    8.1.4  訂單信息表
    8.1.5  訂單明細表
    8.1.6  用戶登錄明細表
    8.1.7  商品價格變更明細表
    8.1.8  配送信息表
    8.1.9  好友關係表
    8.1.10  收藏信息表
  8.2  初級函數練習
    8.2.1  篩選2021年總銷量低於100件的商品
    8.2.2  查詢每日新增用戶數
    8.2.3  用戶註冊、登錄、下單綜合統計
    8.2.4  向用戶推薦好友收藏的商品
    8.2.5  男性和女性用戶每日訂單總金額統計
    8.2.6  購買過商品1和商品2但沒有購買過商品3的用戶統計
    8.2.7  每日商品1和商品2的銷量差值統計

    8.2.8  根據商品銷售情況進行商品分類
    8.2.9  查詢有新增用戶的日期的新增用戶數和新增用戶1日留存率
    8.2.10  登錄次數及交易次數統計
    8.2.11  統計每個商品各年度銷售總金額
    8.2.12  某周內每個商品的每日銷售情況
    8.2.13  形成同期商品售賣分析表
    8.2.14  國慶節期間每個商品的總收藏量和總購買量統計
    8.2.15  國慶節期間各品類商品的7日動銷率和滯銷率
  8.3  本章總結
第9章  高級函數
  9.1  表生成函數
    9.1.1  常用UDTF
    9.1.2  案例演示
  9.2  窗口函數
    9.2.1  語法講解
    9.2.2  常用窗口函數
    9.2.3  案例演示
  9.3  用戶自定義函數
    9.3.1  概述
    9.3.2  自定義UDF函數案例
  9.4  本章總結
第10章  綜合案例練習之高級函數
  10.1  高級函數練習題
    10.1.1  查詢各品類銷售商品的種類數及銷量最高的商品
    10.1.2  查詢首次下單后第二日連續下單的用戶比率
    10.1.3  每件商品銷售首年的年份、銷售數量和銷售總金額
    10.1.4  查詢所有用戶連續登錄2日及以上的日期區間
    10.1.5  訂單金額趨勢分析
    10.1.6  查詢每名用戶登錄日期的最大空檔期
    10.1.7  查詢同一時間多地登錄的用戶
    10.1.8  銷售總金額完成任務指標的商品
    10.1.9  各品類中商品價格的中位數
    10.1.10  求商品連續售賣的時間區間
    10.1.11  根據活躍間隔對用戶進行分級的結果統計
  10.2  面試真題
    10.2.1  同時在線人數問題
    10.2.2  會話劃分問題
    10.2.3  間斷連續登錄用戶問題
    10.2.4  日期交叉問題
  10.3  本章總結
第11章  分區表和分桶表
  11.1  分區表
    11.1.1  分區表基本語法
    11.1.2  二級分區表
    11.1.3  動態分區
  11.2  分桶表
    11.2.1  分桶表基本語法
    11.2.2  分桶排序表
  11.3  本章總結
第12章  文件格式和壓縮

  12.1  文件格式
    12.1.1  Text Flile
    12.1.2  ORC
    12.1.3  Parquet
  12.2  壓縮
    12.2.1  壓縮演算法概述
    12.2.2  Hive表數據進行壓縮
    12.2.3  計算過程中使用壓縮
  12.3  本章總結
第13章  MapReduce引擎下的企業級性能調優
  13.1  測試數據準備
    13.1.1  訂單表(2000萬條數據)
    13.1.2  支付表(600萬條數據)
    13.1.3  商品信息表(100萬條數據)
    13.1.4  省(區、市)信息表(34條數據)
  13.2  計算資源配置調優
    13.2.1  YARN資源配置調優
    13.2.2  MapReduce資源配置調優
  13.3  使用Explain命令查看執行計劃
    13.3.1  基本語法
    13.3.2  案例實操
    13.3.3  執行計劃分析
  13.4  分組聚合
    13.4.1  優化說明
    13.4.2  優化案例
  13.5  Join優化
    13.5.1  Join演算法概述
    13.5.2  Map Join
    13.5.3  Bucket Map Join
    13.5.4  Sort Merge Bucket Map Join
  13.6  數據傾斜
    13.6.1  數據傾斜概述
    13.6.2  分組聚合導致的數據傾斜
    13.6.3  join連接導致的數據傾斜
  13.7  任務並行度
    13.7.1  優化說明
    13.7.2  優化案例
  13.8  小文件合併
    13.8.1  優化說明
    13.8.2  優化案例
  13.9  其他性能優化手段
    13.9.1  CBO優化
    13.9.2  謂詞下推
    13.9.3  矢量化查詢
    13.9.4  Fetch抓取
    13.9.5  本地模式
    13.9.6  並行執行
    13.9.7  嚴格模式
  13.10  本章總結
第14章  Hive On Tez的企業級性能調優

  14.1  初識Hive On Tez
    14.1.1  Tez 概述
    14.1.2  Hive On Tez部署
  14.2  計算資源配置
  14.3  執行計劃與統計信息
    14.3.1  執行計劃
    14.3.2  統計信息
  14.4  任務並行度
    14.4.1  優化說明
    14.4.2  Reducer並行度優化案例
  14.5  分組聚合
  14.6  Join
    14.6.1  Join演算法
    14.6.2  Hive On Tez中Join演算法的實現
    14.6.3  Hive On Tez中Join演算法的選擇策略
    14.6.4  優化案例
  14.7  小文件合併
    14.7.1  優化說明
    14.7.2  優化案例
  14.8  數據傾斜
  14.9  本章總結
第15章  Hive On Spark的企業級性能調優
  15.1  Hive On Spark概述
    15.1.1  什麼是Spark
    15.1.2  Spark的基本架構
    15.1.3  Hive On Spark的安裝部署
  15.2  Spark資源配置
    15.2.1  Excutor配置說明
    15.2.2  Driver配置說明
    15.2.3  Spark配置實操
  15.3  使用Explain命令查看執行計劃
  15.4  分組聚合優化
  15.5  Join優化
  15.6  數據傾斜優化
  15.7  計算引擎總結
  15.8  本章總結

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032