幫助中心 | 我的帳號 | 關於我們

Kettle構建Hadoop ETL系統實踐(使用Kettle完成Hadoop數據倉庫的ETL過程)/大數據技術叢書

  • 作者:王雪迎|責編:夏毓彥
  • 出版社:清華大學
  • ISBN:9787302582618
  • 出版日期:2021/08/01
  • 裝幀:平裝
  • 頁數:322
人民幣:RMB 79 元      售價:
放入購物車
加入收藏夾

內容大鋼
    Kettle是一款國外開源的ETL工具,純Java編寫,無須安裝,功能完備,數據抽取高效穩定。
    本書介紹並演示如何用Kettle完成Hadoop數據倉庫上的ETL過程,所有的描繪場景與實驗環境都是基於Linux操作系統的虛擬機。全書共分10章,主要內容包括ETL與Kettle的基本概念、Kettle安裝與配置、Kettle對Hadoop的支持、建立ETL示例模型、數據轉換與裝載、定期自動執行ETL作業、維度表技術、事實表技術,以及Kettle並行、集群與分區技術。
    本書既適合大數據分析系統開發、數據倉庫系統設計與開發、DBA、架構師等相關技術人員閱讀,也適合高等院校和培訓機構人工智慧與大數據相關專業的師生參考。

作者介紹
王雪迎|責編:夏毓彥

目錄
第1章  ETL與Kettle
  1.1  ETL基礎
    1.1.1  數據倉庫架構中的ETL
    1.1.2  數據抽取
    1.1.3  數據轉換
    1.1.4  數據裝載
    1.1.5  開發ETL系統的方法
  1.2  ETL工具
    1.2.1  ETL工具的產生
    1.2.2  ETL工具的功能
  1.3  Kettle基本概念
    1.3.1  Kettle設計原則
    1.3.2  轉換
    1.3.3  作業
    1.3.4  資料庫連接
    1.3.5  連接與事務
    1.3.6  元數據與資源庫
    1.3.7  工具
    1.3.8  虛擬文件系統
  1.4  為什麼選擇Kettle
    1.4.1  主要特性
    1.4.2  與SQL的比較
  1.5  小結
第2章  Kettle安裝與配置
  2.1  安裝
    2.1.1  確定安裝環境
    2.1.2  安裝前準備
    2.1.3  安裝運行Kettle
  2.2  配置
    2.2.1  配置文件和.kettle目錄
    2.2.2  用於啟動Kettle程序的shell腳本
    2.2.3  管理JDBC驅動
  2.3  使用資源庫
    2.3.1  Kettle資源庫簡介
    2.3.2  創建資料庫資源庫
    2.3.3  資源庫的管理與使用
  2.4  小結
第3章  Kettle對Hadoop的支持
  3.1  Hadoop相關的步驟與作業項
  3.2  連接Hadoop
    3.2.1  連接Hadoop集群
    3.2.2  連接Hive
    3.2.3  連接Impala
    3.2.4  建立MySQL資料庫連接
  3.3  導入導出Hadoop集群數據
    3.3.1  向HDFS導入數據
    3.3.2  向Hive導入數據
    3.3.3  從HDFS抽取數據到MySQL
    3.3.4  從Hive抽取數據到MySQL
  3.4  執行HiveQL語句

  3.5  執行MapReduce
    3.5.1  生成聚合數據集
    3.5.2  格式化原始Web日誌
  3.6  執行Spark作業
    3.6.1  在Kettle主機上安裝Spark客戶端
    3.6.2  為Kettle配置Spark
    3.6.3  提交Spark作業
  3.7  小結
第4章  建立ETL示例模型
  4.1  業務場景
    4.1.1  操作型數據源
    4.1.2  銷售訂單數據倉庫模型設計
  4.2  Hive相關配置
    4.2.1  選擇文件格式
    4.2.2  選擇表類型
    4.2.3  支持行級更新
    4.2.4  Hive事務支持的限制
  4.3  建立資料庫表
    4.3.1  源資料庫表
    4.3.2  RDS庫表
    4.3.3  TDS庫表
  4.4  裝載日期維度數據
  4.5  小結
第5章  數據抽取
  5.1  Kettle數據抽取概覽
    5.1.1  文件抽取
    5.1.2  資料庫抽取
  5.2  變化數據捕獲
    5.2.1  基於源數據的CDC
    5.2.2  基於觸發器的CDC
    5.2.3  基於快照的CDC
    5.2.4  基於日誌的CDC
  5.3  使用Sqoop抽取數據
    5.3.1  Sqoop簡介
    5.3.2  使用Sqoop抽取數據
    5.3.3  Sqoop優化
  5.4  小結
第6章  數據轉換與裝載
  6.1  數據清洗
    6.1.1  處理「臟數據」
    6.1.2  數據清洗原則
    6.1.3  數據清洗實例
  6.2  Hive簡介
    6.2.1  Hive體系結構
    6.2.2  Hive工作流程
    6.2.3  Hive伺服器
    6.2.4  Hive優化
  6.3  初始裝載
    6.3.1  系統初始化
    6.3.2  裝載過渡區

    6.3.3  裝載維度表
    6.3.4  裝載事實表
    6.3.5  設置最後裝載日期
  6.4  定期裝載
    6.4.1  設置系統日期
    6.4.2  裝載過渡區
    6.4.3  裝載維度表
    6.4.4  裝載事實表
    6.4.5  設置最後裝載日期
  6.5  小結
第7章  定期自動執行ETL作業
  7.1  使用crontab
    7.1.1  crontab許可權
    7.1.2  crontab命令
    7.1.3  crontab文件
    7.1.4  crontab示例
    7.1.5  crontab環境
    7.1.6  重定向輸出
  7.2  使用Oozie
    7.2.1  Oozie體系結構
    7.2.2  CDH 6.3.1中的Oozie
    7.2.3  建立定期裝載工作流
    7.2.4  建立協調器作業定期自動執行工作流
    7.2.5  在Kettle中執行Oozie作業
    7.2.6  Oozie優化
  7.3  使用start作業項
  7.4  小結
第8章  維度表技術
  8.1  增加列
    8.1.1  修改資料庫模式
    8.1.2  修改Sqoop作業項
    8.1.3  修改定期裝載維度表的轉換
    8.1.4  修改定期裝載事實表的轉換
    8.1.5  測試
  8.2  維度子集
    8.2.1  建立包含屬性子集的子維度
    8.2.2  建立包含行子集的子維度
    8.2.3  使用視圖實現維度子集
  8.3  角色扮演維度
    8.3.1  修改資料庫模式
    8.3.2  修改Kettle定期裝載作業
    8.3.3  測試
    8.3.4  一種有問題的設計
  8.4  層次維度
    8.4.1  固定深度的層次
    8.4.2  多路徑層次
    8.4.3  參差不齊的層次
    8.4.4  遞歸
  8.5  退化維度
    8.5.1  退化訂單維度

    8.5.2  修改定期裝載腳本
    8.5.3  測試修改後的定期裝載
  8.6  雜項維度
    8.6.1  新增銷售訂單屬性雜項維度
    8.6.2  修改定期裝載Kettle作業
    8.6.3  測試修改後的定期裝載
  8.7  維度合併
    8.7.1  修改數據倉庫模式
    8.7.2  初始裝載事實表
    8.7.3  修改定期裝載Kettle作業
    8.7.4  測試修改後的定期裝載
  8.8  分段維度
    8.8.1  年度銷售訂單星型模式
    8.8.2  初始裝載
    8.8.3  定期裝載
  8.9  小結
第9章  事實表技術
  9.1  事實表概述
  9.2  周期快照
    9.2.1  修改數據倉庫模式
    9.2.2  創建快照表數據裝載Kettle轉換
  9.3  累積快照
    9.3.1  修改資料庫模式
    9.3.2  修改增量抽取銷售訂單表的Kettle轉換
    9.3.3  修改定期裝載銷售訂單事實表的Kettle轉換
    9.3.4  修改定期裝載Kettle作業
    9.3.5  測試
  9.4  無事實的事實表
    9.4.1  建立新產品發布的無事實的事實表
    9.4.2  初始裝載無事實的事實表
    9.4.3  修改定期裝載Kettle作業
    9.4.4  測試定期裝載作業
  9.5  遲到的事實
    9.5.1  修改數據倉庫模式
    9.5.2  修改定期裝載Kettle轉換
    9.5.3  修改裝載月銷售周期快照事實表的作業
    9.5.4  測試
  9.6  累積度量
    9.6.1  修改模式
    9.6.2  初始裝載
    9.6.3  定期裝載
    9.6.4  測試定期裝載
    9.6.5  查詢
  9.7  小結
第10章  並行、集群與分區
  10.1  數據分發方式與多線程
    10.1.1  數據行分發
    10.1.2  記錄行合併
    10.1.3  記錄行再分發
    10.1.4  數據流水線

    10.1.5  多線程的問題
    10.1.6  作業中的並行執行
  10.2  Carte子伺服器
    10.2.1  創建Carte子伺服器
    10.2.2  定義子伺服器
    10.2.3  遠程執行
    10.2.4  監視子伺服器
    10.2.5  Carte安全
    10.2.6  服務
  10.3  集群轉換
    10.3.1  定義一個靜態集群
    10.3.2  設計集群轉換
    10.3.3  執行和監控
    10.3.4  元數據轉換
    10.3.5  配置動態集群
  10.4  資料庫分區
    10.4.1  在資料庫連接中使用集群
    10.4.2  創建資料庫分區schemas
    10.4.3  啟用資料庫分區
    10.4.4  資料庫分區示例
    10.4.5  集群轉換中的分區
  10.5  小結

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032