目錄
第1章 數據分析的統計學基礎
1.1 統計學中的一些概念
1.1.1 總體與樣本
1.1.2 參數與統計量
1.1.3 變數的度量類型
1.1.4 變數的分佈類型
1.1.5 正態分佈
1.1.6 Z分數
1.2 假設檢驗基礎
1.2.1 假設檢驗的基本要點
1.2.2 大數定律和中心極限定理
1.3 Z檢驗
1.3.1 基本原理
1.3.2 Python實現Z檢驗
1.4 t檢驗
1.4.1 單樣本t檢驗
1.4.2 雙樣本t檢驗
1.5 方差分析
1.5.1 基本原理
1.5.2 Python 實現方差分析
1.6 卡方檢驗
1.7 相關分析(相關係數與熱力圖)
1.7.1 Pearson相關係數
1.7.2 熱力圖
1.7.3 相關係數的顯著性檢驗
第2章 多元線性回歸實現房價預測
2.1 線性回歸
2.1.1 簡單線性回歸原理
2.1.2 多元線性回歸
2.2 Python實現多元線性回歸
2.3 模型分析與評估
2.3.1 模型的評估指標(R方與調整R方)
2.3.2 回歸係數的顯著性檢驗
2.3.3 虛擬變數的設置
2.3.4 多重共線性的診斷
2.3.5 殘差分析
2.3.6 線性回歸模型評估小結
第3章 邏輯回歸預測電信客戶流失情況
3.1 邏輯回歸
3.1.1 從相關性分析到邏輯回歸
3.1.2 邏輯回歸公式原理
3.2 Python中實現邏輯回歸
3.3 分類模型的評估
3.3.1 模型預測
3.3.2 一致對、不一致對與相等對
3.3.3 混淆矩陣
3.3.4 ROC曲線與AUC值
第4章 決策樹實現信貸違約預測
4.1 決策樹的原理
4.1.1 節點、分支與深度
4.1.2 決策樹的分類思想
4.1.3 信息熵、條件熵與信息增益
4.2 決策樹的演算法
4.2.1 ID3演算法與Python實現
4.2.2 可視化決策樹(傳統和交互)
4.2.3C4.5 演算法與Python實現
4.2.4 CART演算法建樹原理
4.3 決策樹實現信貸違約預測的具體代碼
4.3.1 網格搜索調優
4.3.2 優化決策邊界
第5章 隨機森林預測寬頻訂閱用戶離網
5.1 集成學習簡介
5.1.1 概述:Bagging與Boosting
5.1.2 Bagging原理與Python實現
5.2 隨機森林的原理
5.3 隨機森林預測寬頻訂閱用戶離網的具體代碼
第6章 深入淺出層次聚類
6.1 聚類演算法概述
6.1.1 聚類演算法的應用場景
6.1.2 聚類演算法的變數特點
6.1.3 幾種常用的聚類演算法
6.2 聚類演算法的分類邏輯
6.2.1 歐氏距離
6.2.2 餘弦相似度
6.2.3 閔氏距離
6.3 層次聚類
6.3.1 層次樹怎麼看?
6.3.2 點與點、簇與簇之間的距離
6.3.3 Python實現層次聚類
6.4 聚類模型的評估
6.4.1 輪廓係數
6.4.2 平方根標準誤差
6.4.3 R方
6.4.4 評估指標的選擇
6.5 Python實現聚類演算法評估
6.6 結果分析
第7章 K-Means聚類實現客戶分群
7.1 K-Means聚類原理
7.2 Python實現K-Means聚類
7.3 數據轉換方法
7.4 模型評估
7.5 結果分析
第8章 基於不平衡分類演算法的反欺詐模型
8.1 不平衡分類背景
8.2 欠採樣法
8.2.1 隨機欠採樣法
8.2.2 Tomek Link法
8.3 過採樣法
8.3.1 隨機過採樣法
8.3.2 SMOTE法
8.4 綜合採樣法
8.5 Python代碼實戰
8.5.1 數據探索
8.5.2 過採樣處理
8.5.3 決策樹建模
8.5.4 結果分析與優化
第9章 主成分分析實現客戶信貸評級
9.1 PCA中的信息壓縮
9.2 主成分分析原理
9.2.1 信息壓縮的過程
9.2.2 主成分的含義
9.3 Python實現主成分分析
第10章 Apriori演算法實現智能推薦
10.1 常見的推薦演算法
10.2 購物籃分析簡介
10.3 關聯規則
10.3.1 關聯三度
10.3.2 Apriori演算法原理
10.4 Python實現關聯規則
10.4.1 數據探索
10.4.2 Apriori實現關聯規則
10.4.3 篩選互補品與互斥品
10.5 根據關聯規則結果推薦商品
10.5.1 以獲得最高的營銷響應率為目標
10.5.2 以最大化總體銷售額為目標
10.5.3 用戶並未產生消費,為其推薦某樣商品
10.6 使用Apriori演算法的注意事項
第11章 從變數到指標體系
11.1 變數與指標
11.2 從單個指標到指標體系
第12章 零售超市業績評估
12.1 增長率分析法
12.2 比例分析法
12.3 投入產出比法
12.4 評估小結
第13章 廣告營銷渠道分析
13.1 漏斗分析法
13.2 整體結構分析法
13.3 渠道分析小結
第14章 網約車司機單日工作情況分析
14.1 單維度分類
14.2 兩維度分類
14.3 數據解讀小結
第15章 網約車城市運營情況分析
15.1 多維度分析法
15.2 指標關係梳理
15.3 多指標分析順序
15.3.1 各城市完單情況分析
15.3.2 各城市過程指標分析
15.3.3 轉化率分析
15.3.4 供需端分析
15.4 多維度分析小結
第16章 AB測試-教育類網站改版分析
16.1 AB測試原理
16.2 問題探索
16.3 改版效果檢測
16.3.1 分層抽樣函數
16.3.2 主頁點擊率
16.3.3 課程詳情頁註冊率和瀏覽時長
16.3.4 課程學習頁完課率
16.3.5 分析匯總
16.4 AB測試的不足
第17章 用戶價值分析
17.1 RFM分析基礎
17.1.1 R、F、M的打分方式
17.1.2 RFM模型的使用
17.2 Python實現RFM模型
17.2.1 計算R值
17.2.2 計算F值
17.2.3 計算M值
17.2.4 維度打分
17.2.5 客戶分層
17.3 RFM模型指導實際業務
17.3.1 F、M矩陣分析
17.3.2 識別對價格敏感的用戶
17.3.3 識別囤貨用戶
17.3.4 把R也考慮進來
17.4 RFM小結
第18章 用戶留存分析
18.1 同期群分析基礎
18.1.1 從同期群分析表看餐廳經營狀況
18.1.2 從另一個視角看餐廳經營狀況
18.2 Python實現同期群分析
18.2.1 神奇的intersect1d和setdiff1d
18.2.2 單月新增和留存情況
18.2.3 循環構建每個月的新增和留存
18.2.4 延伸應用
第19章 ChatGPT在數據分析領域的應用
19.1 ChatGPT的提問框架
19.2 用ChatGPT做數據分析
19.2.1 GPT處理數據
19.2.2 GPT實現假設檢驗
19.2.3 GPT實現分類