幫助中心 | 我的帳號 | 關於我們

數據挖掘導論(英文版原書第2版)/經典原版書庫

  • 作者:(美)陳封能//邁克爾·斯坦巴赫//阿努吉·卡帕坦//維平·庫瑪爾
  • 出版社:機械工業
  • ISBN:9787111637882
  • 出版日期:2020/01/01
  • 裝幀:平裝
  • 頁數:815
人民幣:RMB 199 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書從演算法的角度介紹數據挖掘所使用的主要原理與技術。為了更好地理解數據挖掘技術如何用於各種類型的數據,研究這些原理與技術是至關重要的。
    本書所涵蓋的主題包括:數據預處理、預測建模、關聯分析、聚類分析、異常檢測和避免錯誤發現。通過介紹每個主題的基本概念和演算法,為讀者提供將數據挖掘應用於實際問題所需的必要背景以及使用方法。

作者介紹
(美)陳封能//邁克爾·斯坦巴赫//阿努吉·卡帕坦//維平·庫瑪爾
    陳封能(Pang-Ning Tan)密歇根州立大學電腦科學與工程系教授,主要研究方向是數據挖掘、資料庫系統、網路空間安全、網路分析等。

目錄
第1章  緒論
  1.1  什麼是數據挖掘
  1.2  數據挖掘要解決的問題
  1.3  數據挖掘的起源
  1.4  數據挖掘任務
  1.5  本書組織結構
  1.6  文獻註釋
  1.7  習題
第2章  數據
  2.1  數據類型
    2.1.1  屬性與度量
    2.1.2  數據集的類型
  2.2  數據質量
    2.2.1  測量和數據收集問題
    2.2.2  關於應用的問題
  2.3  數據預處理
    2.3.1  聚集
    2.3.2  抽樣
    2.3.3  維歸約
    2.3.4  特徵子集選擇
    2.3.5  特徵創建
    2.3.6  離散化和二元化
    2.3.7  變數變換
  2.4  相似性和相異性的度量
    2.4.1  基礎
    2.4.2  簡單屬性之間的相似度和相異度
    2.4.3  數據對象之間的相異度
    2.4.4  數據對象之間的相似度
    2.4.5  鄰近度度量的例子
    2.4.6  互信息
    * 2.4.7  核函數
    * 2.4.8  Bregman散度
    2.4.9  鄰近度計算問題
    2.4.10  選擇正確的鄰近度度量
  2.5  文獻註釋
  2.6  習題
第3章  分類:基本概念和技術
  3.1  基本概念
  3.2  一般的分類框架
  3.3  決策樹分類器
    3.3.1  構建決策樹的基本演算法
    3.3.2  表示屬性測試條件的方法
    3.3.3  選擇屬性測試條件的方法
    3.3.4  決策樹歸納演算法
    3.3.5  示例:Web機器人檢測
    3.3.6  決策樹分類器的特徵
  3.4  模型的過擬
  3.5  模型選擇
    3.5.1  驗證集應用
    3.5.2  模型複雜度合併

    3.5.3  統計範圍估計
    3.5.4  決策樹的模型選擇
  3.6  模型評估
    3.6.1  保持方法
    3.6.2  交叉驗證
  3.7  超參數的使用
    3.7.1  超參數選擇
    3.7.2  嵌套交叉驗證
  3.8  模型選擇和評估中的陷阱
    3.8.1  訓練集和測試集之間的重疊
    3.8.2  使用驗證錯誤率作為泛化錯誤率
  *3.9  模型比較
    3.9.1  估計準確率的置信區間
    3.9.2  比較兩個模型的性能
  3.10  文獻註釋
  3.11  習題
第4章  分類:其他技術
  4.1  分類器的種類
  4.2  基於規則的分類器
    4.2.1  基於規則的分類器原理
    4.2.2  規則集的屬性
    4.2.3  規則提取的直接方法
    4.2.4  規則提取的間接方法
    4.2.5  基於規則的分類器的特點
  4.3  最近鄰分類器
    4.3.1  演算法
    4.3.2  最近鄰分類器的特點
  4.4  樸素貝葉斯分類器
    4.4.1  概率論基礎
    4.4.2  樸素貝葉斯假設
  4.5  貝葉斯網路
    4.5.1  圖表示
    4.5.2  推理與學習
    4.5.3  貝葉斯網路的特點
  4.6  logistic回歸
    4.6.1  logistic回歸用作廣義線性模型
    4.6.2  學習模型參數
    4.6.3  logistic回歸模型的特點
  4.7  人工神經網路
    4.7.1  感知機
    4.7.2  多層神經網路
    4.7.3  人工神經網路的特點
  4.8  深度學習
    4.8.1  使用協同損失函數
    4.8.2  使用響應激活函數
    4.8.3  正則化
    4.8.4  模型參數的初始化
    4.8.5  深度學習的特點
  4.9  支持向量機
    4.9.1  分離超平面的邊緣

    4.9.2  線性SVM
    4.9.3  軟邊緣SVM
    4.9.4  非線性SVM
    4.9.5  SVM的特點
  4.10  組合方法
    4.10.1  組合方法的基本原理
    4.10.2  構建組合分類器的方法
    4.10.3  偏置–方差分解
    4.10.4  裝袋
    4.10.5  提升
    4.10.6  隨機森林
    4.10.7  組合方法的實驗比較
  4.11  類不平衡問題
    4.11.1  類不平衡的分類器構建
    4.11.2  帶類不平衡的性能評估
    4.11.3  尋找最優的評分閾值
    4.11.4  綜合評估性能
  4.12  多類問題
  4.13  文獻註釋
  4.14  習題
第5章  關聯分析:基本概念和演算法
  5.1  預備知識
  5.2  頻繁項集的產生
    5.2.1  先驗原理
    5.2.2  Apriori演算法的頻繁項集產生
    5.2.3  候選項集的產生與剪枝
    5.2.4  支持度計數
    5.2.5  計算複雜度
  5.3  規則的產生
    5.3.1  基於置信度的剪枝
    5.3.2  Apriori演算法中規則的產生
    5.3.3  示例:美國國會投票記錄
  5.4  頻繁項集的緊湊表示
    5.4.1  極大頻繁項集
    5.4.2  閉項集
  *5.5  其他產生頻繁項集的方法
  *5.6  FP增長演算法
    5.6.1  FP樹表示法
    5.6.2  FP增長演算法的頻繁項集產生
  5.7  關聯模式的評估
    5.7.1  興趣度的客觀度量
    5.7.2  多個二元變數的度量
    5.7.3  辛普森悖論
  5.8  傾斜支持度分佈的影響
  5.9  文獻註釋
  5.10  習題
第6章  關聯分析:高級概念
  6.1  處理分類屬性
  6.2  處理連續屬性
    6.2.1  基於離散化的方法

    6.2.2  基於統計學的方法
    6.2.3  非離散化方法
  6.3  處理概念分層
  6.4  序列模式
    6.4.1  預備知識
    6.4.2  序列模式發現
    * 6.4.3  時限約束
    * 6.4.4  可選計數方案
  6.5  子圖模式
    6.5.1  預備知識
    6.5.2  頻繁子圖挖掘
    6.5.3  候選生成
    6.5.4  候選剪枝
    6.5.5  支持度計數
  *6.6  非頻繁模式
    6.6.1  負模式
    6.6.2  負相關模式
    6.6.3  非頻繁模式、負模式和負相關模式比較
    6.6.4  挖掘有趣的非頻繁模式的技術
    6.6.5  基於挖掘負模式的技術
    6.6.6  基於支持度期望的技術
  6.7  文獻註釋
  6.8  習題
第7章  聚類分析:基本概念和演算法
  7.1  概述
    7.1.1  什麼是聚類分析
    7.1.2  聚類的不同類型
    7.1.3  簇的不同類型
  7.2  K均值
    7.2.1  K均值演算法
    7.2.2  K均值:附加的問題
    7.2.3  二分K均值
    7.2.4  K均值和不同的簇類型
    7.2.5  優點與缺點
    7.2.6  K均值作為優化問題
  7.3  凝聚層次聚類
    7.3.1  基本凝聚層次聚類演算法
    7.3.2  特殊技術
    7.3.3  簇鄰近度的Lance-Williams公式
    7.3.4  層次聚類的主要問題
    7.3.5  離群點
    7.3.6  優點與缺點
  7.4  DBSCAN
    7.4.1  傳統的密度:基於中心的方法
    7.4.2  DBSCAN演算法
    7.4.3  優點與缺點
  7.5  簇評估
    7.5.1  概述
    7.5.2  無監督簇評估:使用凝聚度和分離度
    7.5.3  無監督簇評估:使用鄰近度矩陣

    7.5.4  層次聚類的無監督評估
    7.5.5  確定正確的簇個數
    7.5.6  聚類趨勢
    7.5.7  簇有效性的監督度量
    7.5.8  評估簇有效性度量的顯著性
    7.5.9  簇有效性度量的選擇
  7.6  文獻註釋
  7.7  習題
第8章  聚類分析:其他問題與演算法
  8.1  數據、簇和聚類演算法的特性
    8.1.1  示例:比較K均值和DBSCAN
    8.1.2  數據特性
    8.1.3  簇特性
    8.1.4  聚類演算法的一般特性
  8.2  基於原型的聚類
    8.2.1  模糊聚類
    8.2.2  使用混合模型的聚類
    8.2.3  自組織映射
  8.3  基於密度的聚類
    8.3.1  基於網格的聚類
    8.3.2  子空間聚類
    8.3.3  DENCLUE:基於密度聚類的一種基於核的方案
  8.4  基於圖的聚類
    8.4.1  稀疏化
    8.4.2  最小生成樹聚類
    8.4.3  OPOSSUM:使用METIS的稀疏相似度最優劃分
    8.4.4  Chameleon:使用動態建模的層次聚類
    8.4.5  譜聚類
    8.4.6  共享最近鄰相似度
    8.4.7  Jarvis-Patrick聚類演算法
    8.4.8  SNN密度
    8.4.9  基於SNN密度的聚類
  8.5  可伸縮的聚類演算法
    8.5.1  可伸縮:一般問題和方法
    8.5.2  BIRCH
    8.5.3  CURE
  8.6  使用哪種聚類演算法
  8.7  文獻註釋
  8.8  習題
第9章  異常檢測
  9.1  異常檢測問題的特性
    9.1.1  異常的定義
    9.1.2  數據的性質
    9.1.3  如何使用異常檢測
  9.2  異常檢測方法的特性
  9.3  統計方法
    9.3.1  使用參數模型
    9.3.2  使用非參數模型
    9.3.3  對正常類和異常類建模
    9.3.4  評估統計意義

    9.3.5  優點與缺點
  9.4  基於鄰近度的方法
    9.4.1  基於距離的異常分數
    9.4.2  基於密度的異常分數
    9.4.3  基於相對密度的異常分數
    9.4.4  優點與缺點
  9.5  基於聚類的方法
    9.5.1  發現異常簇
    9.5.2  發現異常實例
    9.5.3  優點與缺點
  9.6  基於重構的方法
  9.7  單類分類
    9.7.1  核函數的使用
    9.7.2  原點技巧
    9.7.3  優點與缺點
  9.8  資訊理論方法
  9.9  異常檢測評估
  9.10  文獻註釋
  9.11  習題
第10章  避免錯誤發現
  10.1  預備知識:統計檢驗
    10.1.1  顯著性檢驗
    10.1.2  假設檢驗
    10.1.3  多重假設檢驗
    10.1.4  統計檢驗中的陷阱
  10.2  對零分佈和替代分佈建模
    10.2.1  生成合成數據集
    10.2.2  隨機化類標
    10.2.3  實例重採樣
    10.2.4  對檢驗統計量的分佈建模
  10.3  分類問題的統計檢驗
    10.3.1  評估分類性能
    10.3.2  以多重假設檢驗處理二分類問題
    10.3.3  模型選擇中的多重假設檢驗
  10.4  關聯分析的統計檢驗
    10.4.1  使用統計模型
    10.4.2  使用隨機化方法
  10.5  聚類分析的統計檢驗
    10.5.1  為內部指標生成零分佈
    10.5.2  為外部指標生成零分佈
    10.5.3  富集
  10.6  異常檢測的統計檢驗
  10.7  文獻註釋
  10.8  習題

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032