幫助中心 | 我的帳號 | 關於我們

數據挖掘(基於R語言的實戰微課版數據科學與統計系列規劃教材)

  • 作者:張俊妮|責編:武恩玉
  • 出版社:人民郵電
  • ISBN:9787115542786
  • 出版日期:2021/01/01
  • 裝幀:平裝
  • 頁數:258
人民幣:RMB 59.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書以深入淺出的語言系統地介紹了數據挖掘的框架和基本方法,主要內容包括:數據挖掘與R語言概述、數據理解、數據準備、關聯規則挖掘、聚類分析、線性模型與廣義線性模型、神經網路的基本方法、決策樹、基於決策樹的模型組合、模型評估與比較、R語言數據挖掘大案例。本書使用基於R語言的數據挖掘案例貫穿全書,並輔以上機實驗和習題,幫助讀者熟練使用R語言進行數據挖掘。
    本書可作為高等院校數據分析與數據挖掘課程的教材,也適合有意學習並使用數據挖掘基本技術的本科生、研究生以及業界人士閱讀。

作者介紹
張俊妮|責編:武恩玉
    張俊妮,美國哈佛大學統計學博士,現任北京大學光華管理學院商務統計及經濟計量系副教授。研究領域包括:因果推斷、貝葉斯分析、蒙特卡洛方法、數據挖掘以及統計在經濟、金融、營銷中的應用。在Journal of American Statistical Association、Statistica Sinica、Journal of Educational and Behacioral Statistics、《經濟學(季刊)》《數理統計與管理》《管理世界》等期刊上發表十余篇論文。曾獲北京大學教學優秀獎,其課程曾獲得光華管理學院優秀課程獎。

目錄
第1章  數據挖掘與R語言概述
  1.1  數據挖掘的定義及基本流程
  1.2  關於數據挖掘項目的3個基本問題
    1.2.1  建模數據集對預測數據集的代表性
    1.2.2  自變數和因變數之間關係的因果性解釋
    1.2.3  模型預測精度對於實際應用的價值
  1.3  CRISP-DM數據挖掘方法論
  1.4  SEMMA數據挖掘方法論
  1.5  R語言簡介
  習題
第2章  數據理解
  2.1  收集初始數據
  2.2  描述數據
    2.2.1  數據的準確含義
    2.2.2  數據粒度
    2.2.3  變數類型
    2.2.4  冗余變數
    2.2.5  預設值
    2.2.6  數據鏈接
  2.3  檢查數據質量
    2.3.1  抽樣偏差
    2.3.2  數據取值檢查
    2.3.3  數據缺失模式
  2.4  初步探索數據
  2.5  R語言分析示例:數據理解
  上機實驗
  習題
第3章  數據準備
  3.1  數據整合
  3.2  處理分類自變數
  3.3  處理時間信息
  3.4  清除變數
  3.5  處理異常值
  3.6  處理極值
  3.7  處理缺失數據
  3.8  過抽樣與欠抽樣
  3.9  降維
    3.9.1  變數選擇
    3.9.2  主成分分析
  3.10  R語言分析示例:數據準備
    3.10.1  數據整合
    3.10.2  其他數據準備
  上機實驗
  習題
第4章  關聯規則挖掘
  4.1  關聯規則的基本概念
  4.2  Apriori演算法簡介
  4.3  序列關聯規則挖掘
  4.4  R語言分析示例:關聯規則挖掘
    4.4.1  購物籃分析

    4.4.2  泰坦尼克號存活情況分析
  上機實驗
  習題
第5章  聚類分析
  5.1  觀測之間的距離度量
  5.2  k均值聚類法
  5.3  層次聚類法
    5.3.1  層次聚類法的具體步驟
    5.3.2  類別之間距離的度量
  5.4  確定最優類別數
  5.5  R語言分析示例:聚類
上機實驗
  習題
第6章  線性模型與廣義線性模型
  6.1  線性模型
    6.1.1  模型假設與估計
    6.1.2  模型解釋
    6.1.3  一些理論結果
    6.1.4  模型診斷
  6.2  廣義線性模型
    6.2.1  廣義線性模型簡介
    6.2.2  因變數為二值變數或比例的情形
    6.2.3  因變數為多種取值的定類變數的情形
    6.2.4  因變數為定序變數的情形
    6.2.5  其他情形
  6.3  線性模型與廣義線性模型中的變數選擇
    6.3.1  逐步回歸
    6.3.2  LASSO
  6.4  R語言分析示例:線性模型與廣義線性模型
    6.4.1  線性模型示例
    6.4.2  邏輯回歸及Lasso示例:印第安女性糖尿病數據
    6.4.3  邏輯回歸及Lasso示例:移動運營商數據
  上機實驗
  習題
第7章  神經網路的基本方法
  7.1  神經元及神經網路介紹
    7.1.1  單個神經元
    7.1.2  多層感知器架構
  7.2  神經網路模型訓練
    7.2.1  誤差函數
    7.2.2  神經網路訓練演算法
  7.3  提高神經網路模型的泛化能力
  7.4  數據預處理
  7.5  R語言分析示例:神經網路
    7.5.1  紅葡萄酒數據
    7.5.2  移動運營商數據
  上機實驗
  習題
第8章  決策樹
  8.1  決策樹簡介

  8.2  決策樹建模過程
    8.2.1  決策樹建模的一般過程
    8.2.2  分類樹的建模過程
    8.2.3  回歸樹的建模過程
  8.3  決策樹的優缺點
    8.3.1  決策樹的優點
    8.3.2  決策樹的缺點
  8.4  R語言分析示例:決策樹
  上機實驗
  習題
第9章  基於決策樹的模型組合
  9.1  袋裝決策樹
  9.2  梯度提升決策樹
  9.3  隨機森林
  9.4  貝葉斯可加回歸樹
  9.5  R語言分析示例:基於決策樹的模型組合
    9.5.1  袋裝決策樹示例
    9.5.2  梯度提升決策樹示例
    9.5.3  隨機森林示例
    9.5.4  貝葉斯可加回歸樹示例
    9.5.5  模型結果總結
  上機實驗
  習題
第10章  模型評估與比較
  10.1  因變數為二值變數
  10.2  因變數為多種取值的分類變數
  10.3  因變數為連續變數
  10.4  R語言分析示例:模型評估與比較
  上機實驗
  習題
第11章  R語言數據挖掘大案例
  11.1  數據理解與數據準備
  11.2  建模及模型評估
  習題
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032