幫助中心 | 我的帳號 | 關於我們

特徵工程訓練營

  • 作者:(美)希南·奧茲德米爾|責編:王軍|譯者:殷海英
  • 出版社:清華大學
  • ISBN:9787302669098
  • 出版日期:2024/09/01
  • 裝幀:平裝
  • 頁數:308
人民幣:RMB 69.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書列舉多個實踐項目,引導讀者利用特徵工程優化訓練數據。每章探討一個代碼驅動的新案例,涉及金融、醫療等行業。你將學會清洗和轉換數據,減輕偏見。本書呈現各種性能提升技巧,涵蓋從自然語言處理到時間序列分析等所有主要機器學習子領域。

作者介紹
(美)希南·奧茲德米爾|責編:王軍|譯者:殷海英
    希南·奧茲德米爾是Shiba公司的創始人兼首席技術官(CTO),目前負責管理支持公司社交商務平台的Web3組件和機器學習模型。Sinan曾是約翰·霍普金斯大學的數據科學講師,是多種關於數據科學和機器學習的教材的作者。此外,他是已被收購的Kylie.ai公司的創始人,該公司開發了具備RPA(機器人流程自動化)功能的企業級對話式人工智慧平台。Sinan擁有約翰·霍普金斯大學純數學(pure mathematics)專業碩士學位,目前居住在加利福尼亞州的舊金山市。

目錄
第1章  特徵工程簡介
  1.1  特徵工程是什麼,為什麼它如此重要
    1.1.1  誰需要特徵工程
    1.1.2  特徵工程的局限性
    1.1.3  出色的數據,出色的模型
  1.2  特徵工程流程
  1.3  本書的編排方式
    1.3.1  特徵工程的五種類型
    1.3.2  本書案例研究的概述
  1.4  本章小結
第2章  特徵工程基礎知識
  2.1  數據類型
    2.1.1  結構化數據
    2.1.2  非結構化數據
  2.2  數據的四個層次
    2.2.1  定性數據與定量數據
    2.2.2  名義層次
    2.2.3  序數層次
    2.2.4  區間層次
    2.2.5  比率層次
  2.3  特徵工程的類型
    2.3.1  特徵改進
    2.3.2  特徵構建
    2.3.3  特徵選擇
    2.3.4  特徵提取
    2.3.5  特徵學習
  2.4  如何評估特徵工程的成果
    2.4.1  評估指標1:機器學習度量標準
    2.4.2  評估指標2:可解釋性
    2.4.3  評估指標3:公平性和偏見
    2.4.4  評估指標4:機器學習複雜性和速度
  2.5  本章小結
第3章  醫療服務:COVID-19的診斷
  3.1  COVID流感診斷數據集
  3.2  探索性數據分析
  3.3  特徵改進
    3.3.1  補充缺失的定量數據
    3.3.2  填充缺失的定性數據
  3.4  特徵構建
    3.4.1  數值特徵的轉換
    3.4.2  構建分類數據
  3.5  構建特徵工程流程
  3.6  特徵選擇
    3.6.1  互信息
    3.6.2  假設檢驗
    3.6.3  使用機器學習
  3.7  練習與答案
  3.8  本章小結
第4章  偏見與公平性:再犯率建模
  4.1  COMPAS數據集

  4.2  探索性數據分析
  4.3  測量偏見和公平性
    4.3.1  不同對待與不同影響
    4.3.2  公平的定義
  4.4  構建基準模型
    4.4.1  特徵構建
    4.4.2  構建基準流程
    4.4.3  測量基準模型的偏見
  4.5  偏見緩解
    4.5.1  模型訓練前
    4.5.2  模型訓練中
    4.5.3  模型訓練后
  4.6  構建偏見感知模型
    4.6.1  特徵構建:使用Yeo-Johnson轉換器處理不同的影響
    4.6.2  特徵提取:使用aif360學習公平表示實現
  4.7  練習與答案
  4.8  本章小結
第5章  自然語言處理:社交媒體情感分類
  5.1  推文情感數據集
  5.2  文本向量化
    5.2.1  特徵構建:詞袋模型
    5.2.2  計數向量化
    5.2.3  TF-IDF向量化
  5.3  特徵改進
    5.3.1  清理文本中的雜訊
    5.3.2  對token進行標準化
  5.4  特徵提取
  5.5  特徵學習
    5.5.1  自動編碼器簡介
    5.5.2  訓練自動編碼器以學習特徵
    5.5.3  遷移學習簡介
    5.5.4  使用BERT的遷移學習
    5.5.5  使用BERT的預訓練特徵
  5.6  文本向量化回顧
  5.7  練習與答案
  5.8  本章小結
第6章  電腦視覺:對象識別
  6.1  CIFAR-10數據集
  6.2  特徵構建:像素作為特徵
  6.3  特徵提取:梯度方向直方圖
  6.4  使用VGG-11進行特徵學習
    6.4.1  使用預訓練的VGG-11作為特徵提取器
    6.4.2  微調VGG
    6.4.3  使用經過微調的VGG-11特徵進行邏輯回歸
  6.5  圖像矢量化總結
  6.6  練習與答案
  6.7  本章小結
第7章  時間序列分析:利用機器學習進行短線交易
  7.1  TWLO數據集
  7.2  特徵構建

    7.2.1  日期/時間特徵
    7.2.2  滯后特徵
    7.2.3  滾動/擴展窗口特徵
    7.2.4  領域特定特徵
  7.3  特徵選擇
    7.3.1  使用機器學習選擇特徵
    7.3.2  遞歸特徵消除
  7.4  特徵提取
  7.5  結論
  7.6  練習與答案
  7.7  本章小結
第8章  特徵存儲
  8.1  MLOps和特徵存儲
    8.1.1  使用特徵存儲的收益
    8.1.2  維基百科、MLOps和特徵存儲
  8.2  使用Hopsworks設置特徵存儲
    8.2.1  使用HSFSAPI連接到Hopsworks
    8.2.2  特徵組
    8.2.3  使用特徵組來選擇數據
  8.3  在Hopsworks中創建訓練數據
    8.3.1  訓練數據集
    8.3.2  數據溯源
  8.4  練習與答案
  8.5  本章小結
第9章  匯總
  9.1  重新審視特徵工程流程
  9.2  主要收穫
    9.2.1  特徵工程與機器學習模型的選擇同樣至關重要
    9.2.2  特徵工程並非一勞永逸的解決方案
  9.3  特徵工程回顧
    9.3.1  特徵改進
    9.3.2  特徵構建
    9.3.3  特徵選擇
    9.3.4  特徵提取
    9.3.5  特徵學習
  9.4  數據類型特定的特徵工程技術
    9.4.1  結構化數據
    9.4.2  非結構化數據
  9.5  常見問題解答
    9.5.1  何時應將分類變數進行虛擬化,而不是將它們保留為單獨的列
    9.5.2  如何確定是否需要處理數據中的偏見
  9.6  其他特徵工程技術
    9.6.1  分類虛擬桶化
    9.6.2  將學到的特徵與傳統特徵結合
    9.6.3  其他原始數據向量化器
  9.7  擴展閱讀
  9.8  本章小結

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032