目錄
第1章 引言
1.1 數據科學
1.1.1 統計是數據科學嗎?
1.1.2 電腦學科在數據科學中的地位
1.1.3 問題驅動應成為基本思維方式
1.2 多元分析的對象
1.3 需要的工具
1.4 各章的安排
1.5 軟體和編程
1.6 如何教學
第2章 矩陣代數和一些數學概念回顧
2.1 矩陣
2.1.1 基本定義
2.1.2 基本矩陣運算
2.1.3 行列式
2.1.4 矩陣的逆
2.1.5 矩陣的廣義逆
2.1.6 Kronecker積
2.1.7 冪等矩陣
2.1.8 向量空間
2.1.9 正交性
2.1.10 矩陣的秩
2.1.11 矩陣的跡
2.1.12 特徵值
2.1.13 廣義特徵值
2.1.14 分塊矩陣
2.2 矩陣的分解
2.2.1 矩陣的特徵值分解
2.2.2 奇異值分解及廣義奇異值分解
2.2.3 QR分解
2.2.4 Cholesky分解
2.3 二次型
2.3.1 定義
2.3.2 二次型和矩陣的定性
2.3.3 橢球
2.4 矩陣的導數
2.4.1 向量關於數量的偏導數
2.4.2 數量關於向量的偏導數
2.4.3 向量關於向量的偏導數
2.4.4 矩陣關於數量的偏導數
2.4.5 數量關於矩陣的偏導數
2.4.6 有關內積、二次型的導數
2.4.7 函數的偏導數
2.5 數據集的不純度
2.5.1 數據的純與不純
2.5.2 數量變數數據的不純度
2.5.3 分類變數數據的不純度
2.5.4 當數據集拆分成子集時不純度的減少
2.6 相關係數理解的誤區
2.6.1 相關係數不涉及非線性相關
2.6.2 相關係數檢驗(ρ是否為0)和是否相關(ρ是否足夠大)沒有關係
2.7 習題
第3章 有監督學習:分類及回歸
3.1 有監督學習的目標和過程
3.1.1 尋找一個預測模型使預測值接近真實值
3.1.2 預測模型優劣的度量
3.2 交叉驗證
3.2.1 交叉驗證概念
3.2.2 幾種交叉驗證方式
3.3 有監督學習過程匯總
3.4 最小二乘線性回歸
3.4.1 線性模型
3.4.2 最小二乘估計
3.4.3 例3.1 混凝土數據的最小二乘線性回歸擬合
3.4.4 例3.1 混凝土數據的最小二乘線性回歸交叉驗證及與機器學習模型的比較
3.4.5 一般回歸教科書對線性回歸還有什麼其他內容?
3.5 為二分類任務的logistic回歸
3.5.1 logistic回歸模型
3.5.2 logistic回歸模型對例3.3欺詐競標數據的擬合
3.5.3 ROC曲線等對於二分類問題的描述
3.5.4 例3.3欺詐數據的logistic回歸和基於決策樹的若干模型的交叉驗證比較
3.5.5 logistic回歸的局限性
3.6 決策樹
3.6.1 決策樹的構造
3.6.2 決策樹生長的要素
3.6.3 集成模型:決策樹或其他模型作為基礎學習器的擴展
3.7 集成演算法:bagging
3.7.1 基於自助法抽樣的bagging
3.7.2 對例3.5皮膚病數據的bagging分類
3.7.3 對例3.6服裝業數據的bagging回歸
3.8 集成演算法:隨機森林
3.8.1 對例3.5皮膚病數據的隨機森林分類
3.8.2 對例3.6服裝業數據的隨機森林回歸
3.9 增強演算法:AdaBoost分類模型
3.9.1 模型概述
3.9.2 對例3.5皮膚病數據的AdaBoost分類和交叉驗證
3.9.3 對例3.5皮膚病數據的AdaBoost分類的變數重要性
3.10 增強演算法:Xgboost模型
3.10.1 模型概述
3.10.2 對例3.5皮膚病數據的Xgboost分類
3.10.3 對例3.6服裝業數據的Xgboost回歸
3.11 神經網路概述
3.11.1 神經網路的結構
3.11.2 神經網路的訓練
3.11.3 對例3.5皮膚病數據的神經網路分類
3.11.4 對例3.2波士頓住房數據的神經網路回歸
3.12 習題
第4章 降維
4.1 主成分分析降維
4.1.1 數據中變數之間的關係與降維的可能性
4.1.2 主成分分析基本問題和計算
4.1.3 主成分分析在圖像處理中的應用
4.1.4 案例:例4.4洛杉磯街區數據的主成分分析
4.1.5 主成分分析的一些數學知識*
4.2 因子分析降維
4.2.1 概述
4.2.2 例子和計算
4.2.3 因子分析計算基於的原理*
4.3 自編碼器降維*
4.3.1 概念
4.3.2 使用Python的Keras API于例3.3欺詐競標數據的自編碼器降維
4.4 習題
第5章 聚類
5.1 聚類分析概述
5.1.1 聚類目的
5.1.2 聚類和分類方法沒有必然聯繫
5.1.3 點間距離
5.1.4 類間距離
5.1.5 集群傾向的度量
5.2 分層聚類
5.2.1 對連續型變數數據的分層聚類:例
5.2.2 對混合變數數據的觀測值分層聚類:例5.3花卉數據
5.3 k均值聚類、k眾數聚類、k原型聚類
5.3.1 k均值聚類的基本思想
5.3.2 k均值聚類中類別數目的確定
5.3.3 k眾數聚類
5.3.4 k原型聚類——混合變數數據的聚類
5.4 基於密度聚類的思想*
5.5 基於模型的聚類*
5.5.1 直觀描述
5.5.2 E-M演算法
5.5.3 基於模型聚類的計算實現
5.6 聚類數目的選擇
5.6.1 Gap方法*
5.6.2 輪廓法*
5.6.3 其他選擇聚類數目的方法
5.7 更多的聚類實例計算
5.7.1 例5.6種子數據聚類
5.7.2 例4.1教師數據的聚類
5.7.3 圖像色彩的聚類
5.8 習題
第6章 相關和關聯
6.1 典型相關分析
6.1.1 問題的描述和例子
6.1.2 典型相關及特徵值問題
6.1.3 典型變數的選擇
6.1.4 實例計算:例4.1教師數據
6.1.5 典型相關分析的不同角度推導*
6.1.6 各種公式的總結
6.2 對應分析
6.2.1 基本內容和應用
6.2.2 二元對應分析
6.2.3 二元對應分析的數學原理
6.2.4 對應分析行列相關的顯著性*
6.2.5 兩個解釋圖形
6.2.6 多元及聯合對應分析實例:例6.2收入數據
6.2.7 多元對應分析方法的數學*
6.3 習題
第7章 正文中沒有的代碼
7.1 第2章 的代碼
7.1.1 2.1節和2.2節的代碼
7.1.2 2.5.4節R和Python代碼
7.2 第3章 的代碼
7.2.1 3.4.3節Python代碼
7.2.2 3.4.4節R和Python代碼
7.2.3 3.4.5節R和Python代碼
7.2.4 3.5.2節Python代碼
7.2.5 3.5.3節R和Python代碼
7.2.6 3.5.4節R和Python代碼
7.2.7 3.6.1節Python代碼
7.2.8 3.6.3節R和Python代碼
7.2.9 3.7.2節Python代碼
7.2.10 3.7.3節Python代碼
7.2.11 3.8.1節Python代碼
7.2.12 3.8.2節Python代碼
7.2.13 3.9.2節Python代碼
7.2.14 3.10.2節Python代碼
7.2.15 3.10.3節Python代碼
7.2.16 3.11.3節R代碼
7.2.17 3.11.3節Python代碼
7.2.18 3.11.4節Python代碼
7.3 第4章 的代碼
7.3.1 4.1.1節和4.1.2節Python代碼
7.3.2 4.2.2節R和Python代碼
7.4 第5章 的代碼
7.4.1 5.1.2節R代碼
7.4.2 5.1.3節Python代碼
7.4.3 5.1.5節R和Python代碼
7.4.4 5.2.1節Python代碼
7.4.5 5.2.2節Python代碼
7.4.6 5.3.1節Python代碼
7.4.7 5.3.3節Python代碼
7.4.8 5.3.4節Python代碼
7.4.9 5.4節R代碼
7.4.10 5