幫助中心 | 我的帳號 | 關於我們

湖倉架構(大規模數據平台的設計和實現)

  • 作者:(印)高拉夫·阿肖克·塔爾帕提|責編:王春華|譯者:王磊
  • 出版社:機械工業
  • ISBN:9787111789000
  • 出版日期:2025/09/01
  • 裝幀:平裝
  • 頁數:219
人民幣:RMB 99 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書全面闡述了湖倉架構相關知識。首先介紹數據架構及其在構建數據平台中的作用,剖析湖倉架構的概念、特徵和優勢。接著對比傳統架構(數據湖與數據倉庫)和現代數據平台,明確湖倉架構在未來數據平台的重要地位。然後講解行存儲與列存儲等概念,以及雲對象存儲、文件格式和表格式等組件,還給出設計存儲時的考量因素。接著闡述數據目錄、計算引擎在湖倉架構中的功能、類型選擇和設計要點。在數據治理與安全方面,強調在湖倉架構中的統一治理和安全流程。之後提供了湖倉平台從前期準備到具體設計和實施的詳細指南。最後探討湖倉架構的未來發展趨勢,如數據網格、混合事務與分析處理等。通過學習本書,讀者可系統掌握湖倉架構知識,為相關實踐提供有力支持。

作者介紹
(印)高拉夫·阿肖克·塔爾帕提|責編:王春華|譯者:王磊
    高拉夫·阿肖克·塔爾帕提是一名獨立顧問,專註于雲數據架構和數據管理領域。在20多年的從業經歷中,他曾擔任過數據架構師、數據分析師、數據工程師等多個職位。

目錄
前言
第1章  湖倉架構簡介
  1.1  理解數據架構
    1.1.1  什麼是數據架構
    1.1.2  數據架構如何幫助構建數據平台
    1.1.3  數據平台的核心組件
  1.2  為什麼需要一個新的數據架構
  1.3  湖倉架構:一種新的模式
    1.3.1  湖倉:博採眾長
    1.3.2  理解湖倉架構
    1.3.3  湖倉架構的特徵
    1.3.4  湖倉架構的優勢
  1.4  關鍵要點
  1.5  參考
第2章  傳統架構與現代數據平台
  2.1  傳統架構:數據倉庫與數據湖
    2.1.1  數據倉庫基礎
    2.1.2  數據湖基礎
  2.2  現代數據平台
    2.2.1  在雲端尋找答案
    2.2.2  獨立方式
    2.2.3  組合方式
    2.2.4  現代數據平台的期望
  2.3  比較:數據倉庫、數據湖、湖倉
    2.3.1  能力與局限性
    2.3.2  實施活動
    2.3.3  管理與運營
    2.3.4  業務成果
  2.4  湖倉架構:是未來數據平台的默認選擇嗎
  2.5  關鍵要點
  2.6  參考
第3章  存儲:湖倉架構的核心
  3.1  湖倉存儲:關鍵概念
    3.1.1  行式存儲與列式存儲
    3.1.2  基於存儲的性能優化
  3.2  湖倉存儲組件
    3.2.1  雲對象存儲
    3.2.2  文件格式
    3.2.3  表格式
  3.3  關鍵設計考慮因素
    3.3.1  生態系統支持
    3.3.2  社區支持
    3.3.3  支持的文件格式
    3.3.4  支持的計算引擎
    3.3.5  支持的特性
    3.3.6  商業產品支持
    3.3.7  當前版本和未來版本
    3.3.8  性能基準測試
    3.3.9  比較
    3.3.10  共享特徵

  3.4  關鍵要點
  3.5  參考
第4章  數據目錄
  4.1  理解元數據
    4.1.1  技術元數據
    4.1.2  業務元數據
  4.2  元存儲與數據目錄的協同工作方式
  4.3  數據目錄的特性
    4.3.1  搜索、探索與發現數據
    4.3.2  數據分類
    4.3.3  數據治理與安全
    4.3.4  數據血緣
  4.4  統一數據目錄
    4.4.1  豎井式元數據管理的挑戰
    4.4.2  什麼是統一數據目錄
    4.4.3  統一數據目錄的優勢
  4.5  實施數據目錄:關鍵設計考慮因素與選項
    4.5.1  使用HMS
    4.5.2  使用AWS服務
    4.5.3  使用Azure服務
    4.5.4  使用GCP服務
    4.5.5  使用Databricks
  4.6  關鍵要點
  4.7  參考
第5章  湖倉架構的計算引擎
  5.1  湖倉架構的數據計算優勢
    5.1.1  獨立擴展
    5.1.2  跨區域、跨賬戶訪問
    5.1.3  統一的批處理和實時處理
    5.1.4  增強的BI性能
    5.1.5  選擇不同引擎類型的自由
    5.1.6  跨區域分析
  5.2  湖倉平台的計算引擎選項
    5.2.1  開源工具
    5.2.2  雲服務
    5.2.3  第三方平台
  5.3  關鍵設計考慮因素
    5.3.1  開放表格式支持
    5.3.2  支持的版本和特性
    5.3.3  生態系統支持
    5.3.4  基於人物角色的偏好
    5.3.5  托管開源、雲原生與第三方產品
    5.3.6  數據消費類工作負載
  5.4  關鍵要點
  5.5  參考
第6章  湖倉架構中的數據(與AI)治理和安全
  6.1  什麼是數據治理和數據安全
  6.2  數據治理和數據安全的優勢
  6.3  湖倉架構中的統一治理和安全
  6.4  湖倉架構中的治理和安全流程

    6.4.1  元數據管理
    6.4.2  合規和法規
    6.4.3  數據與機器學習模型質量
    6.4.4  貫穿數據資產和AI資產的血緣
    6.4.5  數據資產與AI資產共享
    6.4.6  數據所有權
    6.4.7  審計和監控
    6.4.8  訪問管理
    6.4.9  數據保護
    6.4.10  處理敏感數據
  6.5  你的角色是什麼
  6.6  關鍵要點
  6.7  參考
第7章  全景視圖:設計與實施湖倉平台
  7.1  設計前的活動
    7.1.1  理解平台需求
    7.1.2  研究現有系統
    7.1.3  理解組織的願景與數據戰略
    7.1.4  組織研討會和訪談
  7.2  選擇合適的架構
  7.3  建立指導原則
    7.3.1  數據生態系統
    7.3.2  可擴展性和性能
    7.3.3  成本控制和優化
    7.3.4  平台運營
    7.3.5  治理和安全
  7.4  設計考慮因素與實施最佳實踐
    7.4.1  架構藍圖
    7.4.2  數據攝取
    7.4.3  數據存儲
    7.4.4  數據處理
    7.4.5  數據消費和交付
    7.4.6  通用服務
  7.5  設計參考
    7.5.1  分步設計指南
    7.5.2  設計問卷
  7.6  關鍵要點
  7.7  參考
第8章  現實世界中的湖倉
  8.1  交付一個現實世界的湖倉
  8.2  估算與規劃階段
    8.2.1  估算
    8.2.2  規劃
  8.3  分析與設計階段
    8.3.1  分析現有系統
    8.3.2  數據建模
    8.3.3  確定技術棧
  8.4  實施與測試階段
    8.4.1  歷史數據遷移
    8.4.2  數據核對與測試

    8.4.3  逆向工程
    8.4.4  數據質量和敏感數據處理
  8.5  支持與維護階段
    8.5.1  審計與跟蹤
    8.5.2  災難恢復策略
    8.5.3  舊系統下線
  8.6  交付參考
    8.6.1  項目交付成果
    8.6.2  參考架構
  8.7  關鍵要