內容大鋼
本書探討了如何使用R語言進行機器學習,涵蓋基本的原理和方法,並通過大量的示例和練習,讓讀者掌握R語言的數據處理技巧。本書包括入門、回歸、分類、模型的評估和改進、無監督學習五大部分,涉及線性回歸、logistic回歸、k近鄰、樸素貝葉斯、決策樹、聚類和關聯規則等機器學習模型。本書配套提供相關的代碼和數據,方便讀者學習和使用。本書適合R語言和機器學習的愛好者、從業者以及相關院校的師生選用。
作者介紹
(美)弗雷德·恩旺加//邁克·查普爾|責編:王峰松|譯者:李毅
目錄
第一部分 入門
第1章 什麼是機器學習
1.1 從數據中發現知識
1.1.1 演算法介紹
1.1.2 人工智慧、機器學習和深度學習
1.2 機器學習技術
1.2.1 監督學習
1.2.2 無監督學習
1.3 模型選擇
1.3.1 分類技術
1.3.2 回歸技術
1.3.3 相似性學習技術
1.4 評估模型
1.4.1 分類錯誤
1.4.2 回歸錯誤
1.4.3 錯誤類型
1.4.4 分割數據集
1.5 練習
第2章 R和RStudio簡介
2.1 歡迎來到R
2.2 R和RStudio組件
2.2.1 R語言
2.2.2 RStudio
2.2.3 R包
2.3 編寫和運行R腳本
2.4 R中的數據類型
2.4.1 向量
2.4.2 測試數據類型
2.4.3 轉換數據類型
2.4.4 缺失值
2.5 練習
第3章 數據管理
3.1 tidyverse
3.2 數據收集
3.2.1 主要考慮因素
3.2.2 導入數據
3.3 數據探索
3.3.1 數據描述
3.3.2 數據可視化
3.4 數據準備
3.4.1 數據清洗
3.4.2 數據轉換
3.4.3 減少數據
3.5 練習
第二部分 回歸
第4章 線性回歸
4.1 自行車租賃與回歸
4.2 變數之間的關係
4.2.1 相關性
4.2.2 回歸
4.3 簡單線性回歸
4.3.1 普通最小二乘法
4.3.2 簡單線性回歸模型
4.3.3 評估模型
4.4 多元線性回歸
4.4.1 多元線性回歸模型
4.4.2 評估模型
4.4.3 改進模型
4.4.4 優缺點
4.5 案例研究:預測血壓
4.5.1 導入數據
4.5.2 探索數據
4.5.3 簡單線性回歸模型的擬合
4.5.4 多元線性回歸模型的擬合
4.6 練習
第5章 logistic回歸
5.1 尋找潛在捐贈者
5.2 分類
5.3 logistic回歸
5.3.1 優勢比
5.3.2 二分類logistic回歸模型
5.3.3 評估模型
5.3.4 改進模型
5.3.5 優缺點
5.4 案例研究:收入預測
5.4.1 導入數據
5.4.2 探索和準備數據
5.4.3 訓練模型
5.4.4 評估模型
5.5 練習
第三部分 分類
第6章 k近鄰
6.1 檢測心臟病
6.2 k近鄰
6.2.1 發現最近鄰居
6.2.2 標記未標記數據
6.2.3 選擇合適的k
6.2.4 k近鄰模型
6.2.5 評估模型
6.2.6 改進模型
6.2.7 優缺點
6.3 案例研究:重新分析捐贈者數據集
6.3.1 導入數據
6.3.2 探索和準備數據
6.3.3 建立模型
6.3.4 評估模型
6.4 練習
第7章 樸素貝葉斯
7.1 垃圾郵件分類
7.2 樸素貝葉斯
7.2.1 概率
7.2.2 聯合概率
7.2.3 條件概率
7.2.4 樸素貝葉斯分類
7.2.5 可加性平滑
7.2.6 樸素貝葉斯模型
7.2.7 評估模型
7.2.8 樸素貝葉斯分類器的優缺點
7.3 案例研究:重新審視心臟病檢測問題
7.3.1 導入數據
7.3.2 探索和準備數據
7.3.3 建立模型
7.3.4 評估模型
7.4 練習
第8章 決策樹
8.1 預測許可證決策
8.2 決策樹
8.2.1 遞歸分區
8.2.2 熵
8.2.3 信息增益
8.2.4 基尼不純度
8.2.5 剪枝
8.2.6 建立分類樹模型
8.2.7 評估模型
8.2.8 決策樹的優缺點
8.3 案例研究:重新審視收入預測問題
8.3.1 導入數據
8.3.2 探索和準備數據
8.3.3 建立模型
8.3.4 評估模型
8.4 練習
第四部分 模型的評估和改進
第9章 評估模型
9.1 評估未來表現
9.1.1 交叉驗證
9.1.2 自助抽樣
9.2 超越預測準確性
9.2.1 Kappa
9.2.2 查准率和查全率
9.2.3 靈敏度和特異性
9.3 可視化模型性能
9.3.1 接收者操作特性曲線
9.3.2 曲線下面積
9.4 練習
第10章 改進模型
10.1 調整參數
10.1.1 自動參數調整
10.1.2 自定義參數調整
10.2 集成方法
10.2.1 裝袋
10.2.2 提升
10.2.3 堆疊
10.3 練習
第五部分 無監督學習
第11章 用關聯規則發現模式
11.1 超市購物籃分析
11.2 關聯規則
11.2.1 識彆強規則
11.2.2 Apriori演算法
11.3 發現關聯規則
11.3.1 生成規則
11.3.2 評估規則
11.3.3 優缺點
11.4 案例研究:識別雜貨店購買模式
11.4.1 導入數據
11.4.2 探索和預處理數據
11.4.3 生成規則
11.4.4 評估規則
11.5 練習
11.6 參考文獻
第12章 用聚類對數據分組
&n