幫助中心 | 我的帳號 | 關於我們

Effective數據科學基礎設施(數據科學與大數據技術)

  • 作者:(芬)維萊·圖洛斯|責編:王軍|譯者:郭濤
  • 出版社:清華大學
  • ISBN:9787302641865
  • 出版日期:2023/08/01
  • 裝幀:平裝
  • 頁數:277
人民幣:RMB 98 元      售價:
放入購物車
加入收藏夾

內容大鋼
    數據科學項目日益增多,每個項目在提出原型到生產的過程中都需要可靠的基礎設施。使用本書介紹的一些新技術和新工具,你將能建立一個適用於各類組織(無論是初創企業還是大型企業)的基礎設施堆棧。
    本書可幫助你建立數據流程和項目工作流,為你開發項目帶來強大動力。本書呈現Netflix數據操作的最先進工具和概念,並在此基礎上介紹一種可定製的基於雲的模型開發和MLOps方法,可輕鬆適應公司的特定需求。當團隊把數據科學和機器學習應用於廣泛的業務問題時,這些實用的數據流程將更高效地生成更完美的結果。

作者介紹
(芬)維萊·圖洛斯|責編:王軍|譯者:郭濤
    維萊·圖洛斯(Ville Tuulos)在Netflix公司設計並構建了用於數據科學的全棧框架Metaflow。目前,Ville在一家專業開發數據科學基礎設施的初創公司擔任首席執行官。

目錄
第1章  數據科學基礎設施介紹
  1.1  選擇數據科學基礎設施的原因
  1.2  什麼是數據科學基礎設施
    1.2.1  數據科學基礎設施堆棧
    1.2.2  支持數據科學項目的整個生命周期
    1.2.3  不能以偏概全
  1.3  良好基礎設施的重要性
    1.3.1  管理複雜性
    1.3.2  利用現有平台
  1.4  以人為中心的基礎設施
    1.4.1  自由與責任
    1.4.2  數據科學家自主性
  1.5  本章小結
第2章  數據科學的工具鏈
  2.1  建立開發環境
    2.1.1  雲賬戶
    2.1.2  數據科學工作站
    2.1.3  筆記
    2.1.4  歸納
  2.2  介紹工作流
    2.2.1  工作流基礎
    2.2.2  執行工作流
    2.2.3  工作流框架
  2.3  本章小結
第3章  Metaflow簡介
  3.1  Metaflow的基本概念
    3.1.1  安裝Metaflow
    3.1.2  編寫基本工作流
    3.1.3  管理工作流中的數據流
    3.1.4  參數
  3.2  分支和合併
    3.2.1  有效的DAG結構
    3.2.2  靜態分支
    3.2.3  動態分支
    3.2.4  控制併發
  3.3  Metaflow實際應用
    3.3.1  啟動新項目
    3.3.2  使用客戶端API訪問結果
    3.3.3  調試故障
    3.3.4  最後潤色
  3.4  本章小結
第4章  隨計算層伸縮
  4.1  什麼是可伸縮性
    4.1.1  整個堆棧的可伸縮性
    4.1.2  實驗文化
  4.2  計算層
    4.2.1  使用容器進行批處理
    4.2.2  計算層示例
  4.3  Metaflow中的計算層
    4.3.1  為Metaflow配置AWS批處理

    4.3.2  @batch和@resources裝飾器
  4.4  處理故障
    4.4.1  使用@retry從瞬態錯誤中恢復
    4.4.2  使用@timeout殺死僵屍
    4.4.3  最後一種裝飾器:@catch
  4.5  本章小結
第5章  實踐可伸縮性和性能
  5.1  從簡單開始:垂直可伸縮性
    5.1.1  示例:聚類Yelp評論
    5.1.2  實踐垂直可伸縮性
    5.1.3  為什麼選擇垂直可
伸縮性
  5.2  實踐水平可伸縮性
    5.2.1  為什麼選擇水平可伸縮性
    5.2.2  示例:超參數搜索
  5.3  實施性能優化
    5.3.1  示例:計算共現矩陣
    5.3.2  加快工作流的方法
  5.4  本章小結
第6章  投入生產
  6.1  穩定的工作流調度
    6.1.1  中心化元數據
    6.1.2  使用AWS Step Functions和Metaflow
    6.1.3  使用@schedule調度運行
  6.2  魯棒的執行環境
    6.2.1  Metaflow包如何流動
    6.2.2  為什麼依賴管理很重要
    6.2.3  使用@conda裝飾器
  6.3  穩定運行
    6.3.1  原型開發期間的命名空間
    6.3.2  生產命名空間
    6.3.3  使用@project的並行部署
  6.4  本章小結
第7章  處理數據
  7.1  快速數據的基礎
    7.1.1  從S3載入數據
    7.1.2  使用表格數據
    7.1.3  內存數據堆棧
  7.2  與數據基礎設施的交互
    7.2.1  現代數據基礎設施
    7.2.2  用SQL準備數據集
    7.2.3  分散式數據處理
  7.3  從數據到特徵
    7.3.1  區分事實和特徵
    7.3.2  編碼特徵
  7.4  本章小結
第8章  使用和操作模型
  8.1  生成預測
    8.1.1  批處理、流式和實時預測
    8.1.2  示例:推薦系統

    8.1.3  批處理預測
    8.1.4  實時預測
  8.2  本章小結
第9章  全棧機器學習
  9.1  可插拔的特徵編碼器和模型
    9.1.1  為可插拔的組件開發框架
    9.1.2  執行特徵編碼器
    9.1.3  基準模型
  9.2  深度回歸模型
    9.2.1  編碼輸入張量
    9.2.2  定義深度回歸模型
    9.2.3  訓練深度回歸模型
  9.3  總結所學
  9.4  本章小結
附錄  安裝Conda

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032