幫助中心 | 我的帳號 | 關於我們

實體消解指南(使用Python進行數據匹配)

  • 作者:(英)邁克爾·希勒|責編:王春華//支彬茹|譯者:林潤
  • 出版社:機械工業
  • ISBN:9787111783299
  • 出版日期:2025/06/01
  • 裝幀:平裝
  • 頁數:182
人民幣:RMB 69 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書是數據工程師的實戰寶典!從實體消解基礎概念切入,系統拆解數據標準化、文本模糊匹配(Levenshtein距離、Metaphone演算法)、概率模型(Fellegi-Sunter模型、貝葉斯因子)、聚類分塊等核心技術,更獨家涵蓋Splink框架、谷歌雲Dataproc集群部署、企業知識圖譜API等前沿工具。作者以真實金融反欺詐案例貫穿全書,手把手教學Python代碼實現,並前瞻隱私集合求交(PSI)等合規技術。經Splink工具作者Robin Linacre力薦,既是新手入門教材,也是資深從業者的技術進階手冊。

作者介紹
(英)邁克爾·希勒|責編:王春華//支彬茹|譯者:林潤
    邁克爾·希勒(Michael Shearer)是HAWK:AI公司的首席解決方案官,該公司致力於幫助金融機構偵測金融犯罪活動。作為?豐銀行前董事總經理,他在2014-2023年間主導開發了一套合規系統。此外,邁克爾還在英國政府部門擁有20年的工作經驗,曾擔任多個關鍵的管理和技術角色。

目錄
前言
第1章  實體消解入門
  1.1  什麼是實體消解
  1.2  實體消解的作用
  1.3  實體消解的主要挑戰
    1.3.1  姓名缺少唯一性
    1.3.2  命名約定不一致
    1.3.3  數據獲取不一致
    1.3.4  示例
    1.3.5  故意模糊處理
    1.3.6  匹配組合
    1.3.7  盲目匹配
  1.4  實體消解過程
    1.4.1  數據標準化
    1.4.2  記錄分塊
    1.4.3  屬性比較
    1.4.4  匹配分類
    1.4.5  聚類
    1.4.6  規範化
    1.4.7  示例
  1.5  評估結果
  1.6  正式開始
第2章  數據標準化
  2.1  案例
  2.2  設置環境
  2.3  獲取數據
    2.3.1  維基百科數據
    2.3.2  TheyWorkForYou數據
  2.4  清洗數據
    2.4.1  清洗維基百科數據
    2.4.2  清洗TheyWorkForYou數據
  2.5  比較屬性
  2.6  選區
  2.7  評估結果
  2.8  計算樣本
  2.9  總結
第3章  文本匹配
  3.1  編輯距離匹配
    3.1.1  Levenshtein距離
    3.1.2  Jaro相似度
    3.1.3  Jaro-Winkler相似度
  3.2  語音匹配
    3.2.1  Metaphone演算法
    3.2.2  MRA演算法
  3.3  技術比較
  3.4  案例
  3.5  全面相似度比較
  3.6  評估結果
  3.7  總結
第4章  概率匹配

  4.1  案例
  4.2  單一屬性匹配概率
    4.2.1  名字匹配概率
    4.2.2  姓氏匹配概率
  4.3  多屬性匹配概率
  4.4  概率模型
    4.4.1  貝葉斯定理
    4.4.2  m值
    4.4.3  u值
    4.4.4  λ值
    4.4.5  貝葉斯因子
    4.4.6  Fellegi-Sunter模型
    4.4.7  匹配權重
  4.5  期望最大化演算法
    4.5.1  第一次迭代
    4.5.2  第二次迭代
    4.5.3  第三次迭代
  4.6  Splink入門
    4.6.1  配置Splink
    4.6.2  Splink匹配結果
  4.7  總結
第5章  記錄分塊
  5.1  案例
  5.2  獲取數據
    5.2.1  維基百科數據
    5.2.2  英國公司註冊署數據
  5.3  數據標準化
    5.3.1  維基百科數據
    5.3.2  英國公司註冊署數據
  5.4  記錄分塊與屬性比較
    5.4.1  使用Splink進行記錄分塊
    5.4.2  比較屬性
  5.5  匹配分類
  5.6  評估結果
  5.7  總結
第6章  匹配公司
  6.1  案例
  6.2  獲取數據
  6.3  數據標準化
    6.3.1  英國公司註冊署數據
    6.3.2  英國海事及海岸警衛署數據
  6.4  記錄分塊與屬性比較
  6.5  匹配分類
  6.6  評估結果
  6.7  匹配新實體
  6.8  總結
第7章  聚類
  7.1  簡單精確匹配聚類
  7.2  近似匹配聚類
  7.3  案例

    7.3.1  獲取數據
    7.3.2  數據標準化
  7.4  記錄分塊與屬性比較
    7.4.1  數據分析
    7.4.2  期望最大化分塊規則
  7.5  匹配分類與聚類
  7.6  簇可視化
  7.7  聚類分析
  7.8  總結
第8章  使用谷歌雲平台進行擴展
  8.1  谷歌雲設置
  8.2  創建Dataproc集群
  8.3  配置Dataproc集群
  8.4  使用Spark進行實體消解
  8.5  評估結果
  8.6  整理工作
  8.7  總結
第9章  實體消解雲服務
  9.1  BigQuery簡介
  9.2  企業知識圖譜 API
    9.2.1  模式映射
    9.2.2  消解作業
    9.2.3  處理結果
    9.2.4  實體消解Python客戶端
  9.3  評估結果
  9.4  總結
第10章  利用記錄關聯技術保護隱私
  10.1  隱私集合求交簡介
  10.2  PSI原理
  10.3  基於ECDH的PSI協議
    10.3.1  布隆過濾器
    10.3.2  格倫布編碼集
  10.4  案例:使用PSI
    10.4.1  設置環境
    10.4.2  伺服器代碼
    10.4.3  客戶端代碼
    10.4.4  完整的MCA和公司註冊署樣本示例
  10.5  總結
第11章  進一步探討
  11.1  數據問題探討
    11.1.1  非結構化數據問題
    11.1.2  數據質量問題
    11.1.3  時效性問題
  11.2  屬性比較
    11.2.1  集合匹配
    11.2.2  地理編碼位置匹配
    11.2.3  匯總比較
  11.3  后處理
  11.4  圖形表示
  11.5  實時性問題

  11.6  評估結果
    11.6.1  成對方法
    11.6.2  基於簇的方法
  11.7  實體消解的未來

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032