內容大鋼
人工智慧被廣泛應用和普及,極大地提高了人們學習和工作的效率。而要深入理解人工智慧,必須全面理解底層各類機器學習演算法的基本原理。只有全面掌握機器學習的基礎知識,才能更好地理解、提高和駕馭人工智慧的各種應用。
本書分為13章,前7章為原理篇,重點討論了機器學習模型建模的全部流程、各類常用的機器學習演算法原理、深度學習和強化學習、機器學習涉及的最優化原理,以及自然語言處理演算法原理;后6章為實踐篇,重點討論了信用卡客戶細分、保險公司時間序列生活事件預測、電商網站交易欺詐預測、信用卡和信用貸款風險預測、美國舊金山房屋成交價格預測,以及股票短期回報率預測等多個實際應用場景。
本書內容系統、全面,理論知識覆蓋面廣,且保留了推導過程。實踐案例中,深入淺出地講解和展示了機器學習應用的具體流程。本書適合在各行業工作的數據科學家、在校學習人工智慧和數據科學專業的學生、科技公司的管理者和決策者,以及人工智慧的初學者和愛好者閱讀。
作者介紹
劉春雷|責編:張雲靜//劉羽昭
劉春雷,畢業於中國科學技術大學近代物理系,本科畢業后,前往美國留學深造,並獲得了美國卡內基梅隆大學機器學習專業碩士學位和美國匹茲堡大學物理專業博士學位。在研究生和博士階段的學習過程中,結合數據挖掘、機器學習理論知識和大數據技術,在應用物理領域做出了傑出的貢獻和成就。經過多年博士及博士后階段的學習和研究工作后,作者又先後在美國智庫型研究公司和華爾街商業銀行工作,積累了大量將機器學習和數據科學技術應用到實踐中的經驗。
目錄
第1章 人工智慧應用場景——金融風控
1.1 反欺詐與信用評估
1.2 信用評估模型介紹
1.3 客戶營銷與風控管理
1.4 建模中的拒絕推斷
1.4.1 簡單擴張法(硬截斷法)
1.4.2 加權擴張法(模糊擴張法)
1.4.3 分段擴張法
1.5 評分卡模型
1.5.1 評分卡模型種類
1.5.2 評分卡模型與WOE計算
1.5.3 評分卡模型與邏輯回歸
第2章 人工智慧中的機器學習和模型評價
2.1 機器學習預測結果推廣性理論
2.2 機器學習問題的分類
2.3 二分類模型的評價方法
2.3.1 混淆矩陣的定義和使用
2.3.2 ROC曲線及其應用
2.3.3 Lift分析方法
2.4 多分類模型的評價方法
2.5 回歸模型的評價方法
第3章 機器學習建模重要步驟
3.1 數據收集
3.1.1 從數據源方面考慮
3.1.2 從數據格式方面考慮
3.1.3 從數據存儲方面考慮
3.2 數據清洗轉換和預處理
3.2.1 數據偏度和峰度
3.2.2 數據歸一化
3.2.3 數據缺失值的處理
3.2.4 數據不平衡的處理
3.3 特徵工程
3.3.1 分類變數編碼技術
3.3.2 特徵篩選技術
3.4 模型的選擇和建立
3.4.1 建模數據分割技術
3.4.2 模型的選擇
3.5 模型的監控
第4章 機器學習常用演算法原理
4.1 回歸演算法
4.1.1 線性回歸演算法
4.1.2 Lasso和Ridge回歸演算法
4.1.3 邏輯回歸演算法
4.2 梯度下降優化
4.3 樸素貝葉斯、支持向量機和決策樹演算法
4.3.1 樸素貝葉斯演算法
4.3.2 支持向量機演算法
4.3.3 決策樹演算法
4.4 集成演算法、隨機森林演算法和梯度增強機演算法
4.4.1 集成演算法
4.4.2 隨機森林演算法
4.4.3 梯度增強機演算法
4.5 無監督學習演算法
4.5.1 聚類演算法
4.5.2 主成分分析演算法
4.6 神經網路演算法
4.6.1 神經網路基本結構
4.6.2 神經網路演算法參數求解
第5章 深度學習和強化學習
5.1 深度學習演算法
5.1.1 深度學習中的逐層訓練
5.1.2 激活函數和梯度消失
5.1.3 深度學習「深度」的原因
5.1.4 卷積神經網路
5.1.5 循環神經網路
5.2 強化學習演算法
5.2.1 強化學習的定義
5.2.2 強化學習的優化演算法之ValueIteration
5.2.3 強化學習的優化演算法之Q-Learning
5.2.4 深度學習和Q-Learning
第6章 機器學習和最優化
6.1 最優化理論和機器學習的關係
6.1.1 典型的最優化問題
6.1.2 機器學習中的最優化問題
6.2 最優化理論的分類和理解
6.2.1 線搜索和信任域
6.2.2 凸優化和非凸優化
6.2.3 約束最優化
6.2.4 線性規劃最優化
6.2.5 最優化中的微分求導
6.3 機器學習演算法中最優化應用
6.3.1 梯度下降的多種形式
6.3.2 擬牛頓法
6.3.3 Adam方法
第7章 自然語言處理演算法原理
7.1 文本數據處理和NLP基礎
7.1.1 文本數據處理
7.1.2 NLP任務流程和基本概念
7.1.3 NLP中的分詞演算法
7.2 機器學習演算法在NLP中的應用
7.2.1 主題模型
7.2.2 文本總結模型
7.2.3 word2vec
7.2.4 文本分類模型
7.3 深度學習在NLP中的應用
7.3.1 Sequence to Sequence模型
7.3.2 Attention模型
7.3.3 Self Attention機制和Transformer模型
第8章 信用卡客戶細分
8.1 EDA探索性數據分析
8.1.1 數據維度的含義和基本性質
8.1.2 數據維度直方圖
8.1.3 數據維度二維圖
8.2 數據預處理和特徵工程
8.2.1 維度缺失值處理
8.2.2 維度歸一化處理
8.3 K-Means聚類建模和分組個數選擇
8.3.1 K-Means慣性值
8.3.2 Silhouette輪廓係數
8.4 建模結果可視化和分析
8.4.1 K-Means聚類結果可視化
8.4.2 K-Means聚類結果的行業相關分析
第9章 保險公司時間序列生活事件預測
9.1 樸素貝葉斯演算法和馬爾可夫鏈演算法應用
9.1.1 EDA探索性數據分析
9.1.2 樸素貝葉斯演算法的應用
9.1.3 馬爾可夫鏈演算法的應用
9.2 時間序列特徵工程和梯度增強機演算法
9.2.1 特徵工程方法的改進
9.2.2 梯度增強機演算法的應用
9.3 深度學習演算法的應用
9.3.1 特徵變數嵌入和填充
9.3.2 LSTM神經網路結構設計
9.3.3 LSTM模型訓練和測試
9.3.4 LSTM模型的其他網路結構設計介紹
第10章 電商網站交易欺詐預測
10.1 EDA探索性數據分析
10.1.1 數據原始特徵變數的初步理解和分析
10.1.2 具體變數的探索性分析
10.2 模型選擇
10.2.1 梯度增強機模型和框架選擇
10.2.2 模型訓練中的交叉驗證
10.3 數據特徵工程
10.3.1 特徵變數預處理
10.3.2 衍生變數
10.3.3 特徵篩選
10.4 模型結果討論
10.4.1 超參數的優化
10.4.2 模型結果的理解和業務應用
第11章 信用卡和信用貸款風險預測
11.1 信用卡客戶風險預測和管理
11.1.1 信用風險預測的特徵選擇
11.1.2 信用風險預測模型的選擇和訓練流程
11.2 個人信用分期貸款風險預測
11.2.1 EDA探索性數據分析
11.2.2 信用風險特徵篩選
11.2.3 信用風險建模和測試
第12章 美國舊金山房屋成交價格預測
12.1 EDA探索性數據分析和特徵工程
12.1.1 舊金山房屋銷售原始數據分析
12.1.2 EDA探索性數據分析
12.1.3 房屋數據特徵預處理
12.1.4 房屋數據特徵變數衍生
12.2 房屋價格預測建模和驗證
12.2.1 模型交叉驗證和滑動時間窗口
12.2.2 梯度增強機演算法的運用
12.2.3 線性回歸演算法的運用
第13章 股票短期回報率預測
13.1 EDA探索性數據分析
13.1.1 交易回報率
13.1.2 數據探索分析
13.2 數據預處理和特徵工程
13.2.1 訓練數據和測試數據特徵變數的一致性
13.2.2 特徵變數預處理
&nbs