幫助中心 | 我的帳號 | 關於我們

機器學習大數據平台的構建任務實現與數據治理--使用Azure\DevOps\MLOps

  • 作者:(美)弗拉德·里斯庫蒂亞|責編:王軍|譯者:葉偉民//劉華//余靈
  • 出版社:清華大學
  • ISBN:9787302657637
  • 出版日期:2024/04/01
  • 裝幀:平裝
  • 頁數:288
人民幣:RMB 98 元      售價:
放入購物車
加入收藏夾

內容大鋼
    你需要構建安全、穩定的數據平台,需要可以擴展到任何規模的工作負載。當項目從實驗室進入生產環境時,你需要確信它可以應對現實工作中的挑戰。本書能夠幫助你實現這些需求,將講述如何設計和實現基於雲的、可以輕鬆監控、擴展和修改的數據基礎設施。
    通過本書,你將學到構建和維護大型企業大數據平台所需的技能。書中包括設置基礎設施、編排、工作負載和治理,寫作風格清晰、實用。在學習過程中,你將建立高效的機器學習管道,然後掌握省時的自動化和DevOps解決方案。書中基於Azure的示例很容易在其他雲平台上實現。
    主要內容:
    數據字典和數據治理;
    數據質量管控、合規和分發;
    構建自動化管道以提高可靠性;
    數據攝取、存儲和分發;
    支持生產環境中的數據建模、分析和機器學習。
    讀者對象:
    本書面向數據工程師,講述如何使用雲計算和DevOps進行數據工程。

作者介紹
(美)弗拉德·里斯庫蒂亞|責編:王軍|譯者:葉偉民//劉華//余靈

目錄
第1章  簡介
  1.1  什麼是數據工程
  1.2  本書讀者對象
  1.3  什麼是數據平台
    1.3.1  數據平台的構成
    1.3.2  基礎設施即代碼,無代碼基礎設施
  1.4  使用雲構建
    1.4.1  IaaS、PaaS和SaaS
    1.4.2  網路、存儲和計算
    1.4.3  如何使用Azure
    1.4.4  與Azure交互
  1.5  實現Azure數據平台
  1.6  本章小結
第Ⅰ部分  基礎設施
  第2章  存儲
    2.1  在數據平台中存儲數據
      2.1.1  跨多個數據織物存儲數據
      2.1.2  SSOT
    2.2  Azure Data Explorer簡介
      2.2.1  部署Azure Data Explorer集群
      2.2.2  使用Azure Data Explorer
      2.2.3  解決查詢限制問題
    2.3  Azure Data Lake Storage簡介
      2.3.1  創建Azure Data Lake Storage賬戶
      2.3.2  使用Azure Data Lake Storage
      2.3.3  集成Azure Data Explorer
    2.4  數據攝取
      2.4.1  數據攝取頻率
      2.4.2  載入類型
      2.4.3  數據重建和重新載入
    2.5  本章小結
  第3章  DevOps
    3.1  什麼是DevOps
    3.2  Azure DevOps簡介
    3.3  部署基礎設施
      3.3.1  導出Azure Resource Manager模板
      3.3.2  創建Azure DevOps服務連接
      3.3.3  部署Azure Resource Manager模板
      3.3.4  理解Azure Pipelines
    3.4  部署Azure Data Explorer對象和分析
      3.4.1  使用Azure DevOps市場擴展
      3.4.2  將所有內容都存儲在Git並自動部署所有內容
    3.5  本章小結
  第4章  編排
    4.1  導入Bing COVID-19開放數據集
    4.2  Azure Data Factory簡介
      4.2.1  設置數據源
      4.2.2  設置數據接收器
      4.2.3  設置管道
      4.2.4  設置觸發器

      4.2.5  使用Azure Data Factory進行編排
    4.3  Azure Data Factory的DevOps
      4.3.1  從Git部署Azure Data Factory
      4.3.2  設置訪問控制
      4.3.3  部署生產環境的Azure Data Factory
      4.3.4  小結
    4.4  使用Azure Monitor進行監控
    4.5  本章小結
第Ⅱ部分  具體的工作任務
  第5章  數據處理
    5.1  數據建模技術
      5.1.1  規範化和反規範化
      5.1.2  數據倉庫
      5.1.3  半結構化數據
      5.1.4  小結
    5.2  身份鑰匙環
      5.2.1  構建身份鑰匙環
      5.2.2  理解鑰匙環
    5.3  時間線
      5.3.1  構建時間線視圖
      5.3.2  使用時間線
    5.4  應用DevOps以保證數據處理能夠按計劃可靠地運行
      5.4.1  使用Git追蹤和處理函數
      5.4.2  使用Azure Data Factory構建鑰匙環
      5.4.3  擴展規模
    5.5  本章小結
  第6章  數據分析
    6.1  開發環境和生產環境分離下如何訪問數據
      6.1.1  對生產數據處理后再部分複製到開發環境
      6.1.2  將生產數據完全複製到開發環境
      6.1.3  在開發環境中提供生產數據的只讀視圖
      6.1.4  小結
    6.2  設計數據分析的工作流程
      6.2.1  原型
      6.2.2  開發和用戶驗收測試
      6.2.3  生產環境
      6.2.4  小結
    6.3  讓數據科學家能夠自助移動數據
      6.3.1  基本原則和相關背景
      6.3.2  數據合約
      6.3.3  管道驗證
      6.3.4  事後分析
      6.3.5  小結
    6.4  本章小結
  第7章  機器學習
    7.1  訓練一個機器學習模型
      7.1.1  使用scikit-learn訓練模型
      7.1.2  高消費者模型實現
    7.2  引入Azure Machine Learning
      7.2.1  創建工作區

      7.2.2  創建Azure Machine Learning計算目標
      7.2.3  設置Azure Machine Learning存儲
      7.2.4  在雲中運行機器學習
      7.2.5  小結
    7.3  MLOps
      7.3.1  從Git部署
      7.3.2  存儲管道ID
      7.3.3  小結
    7.4  機器學習的編排
      7.4.1  連接Azure Data Factory與Azure Machine Learning
      7.4.2  機器學習編排
      7.4.3  小結
    7.5  本章小結
第Ⅲ部分  數據治理
  第8章  元數據
    8.1  理解大數據平台中元數據的需求
    8.2  介紹Azure Purview
    8.3  維護數據字典
      8.3.1  設置掃描
      8.3.2  瀏覽數據字典
      8.3.3  小結
    8.4  管理數據術語表
      8.4.1  添加新的術語
      8.4.2  審查術語
      8.4.3  自定義模板和批量導入
      8.4.4  小結
    8.5  了解Azure Purview的高級功能
      8.5.1  追蹤數據血緣
      8.5.2  分類規則
      8.5.3  REST API
      8.5.4  小結
    8.6  本章小結
  第9章  數據質量
    9.1  數據測試概述
      9.1.1  可用性測試
      9.1.2  正確性測試
      9.1.3  完整性測試
      9.1.4  異常檢測測試
      9.1.5  小結
    9.2  使用Azure Data Factory進行數據質量檢查
      9.2.1  使用Azure Data Factory進行測試
      9.2.2  執行測試
      9.2.3  創建和使用模板
      9.2.4  小結
    9.3  擴展數據測試
      9.3.1  支持多個數據平台
      9.3.2  按計劃運行測試和觸發運行測試
      9.3.3  編寫測試
      9.3.4  存儲測試定義和結果
    9.4  本章小結

  第10章  合規
    10.1  數據分類
      10.1.1  特徵數據
      10.1.2  遙測數據
      10.1.3  用戶數據
      10.1.4  用戶擁有的數據
      10.1.5  業務數據
      10.1.6  小結
    10.2  將敏感數據變得不那麼敏感
      10.2.1  聚合
      10.2.2  匿名化
      10.2.3  偽匿名化
      10.2.4  數據掩碼
      10.2.5  小結
    10.3  訪問控制模型
      10.3.1  安全組
      10.3.2  保護Azure Data Explorer
      10.3.3  小結
    10.4  GDPR和其他考慮因素
      10.4.1  數據處理
      10.4.2  數據主體請求
      10.4.3  其他考慮因素
    10.5  本章小結
  第11章  數據分發
    11.1  數據分發概述
    11.2  構建數據API
      11.2.1  Azure Cosmos DB簡介
      11.2.2  填充Cosmos DB集合
      11.2.3  檢索數據
      11.2.4  小結
    11.3  機器學習模型如何對外提供服務
    11.4  共享數據進行批量複製
      11.4.1  分離計算資源
      11.4.2  Azure Data Share簡介
      11.4.3  小結
    11.5  數據共享的最佳實踐
    11.6  本章小結
附錄A  Azure服務
附錄B  KQL快速參考
附錄C  運行代碼示例

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032