幫助中心 | 我的帳號 | 關於我們

大話數據科學(大數據與機器學習實戰基於R語言全彩印刷)

  • 作者:編者:陳文賢|責編:欒大成
  • 出版社:清華大學
  • ISBN:9787302551300
  • 出版日期:2020/07/01
  • 裝幀:平裝
  • 頁數:382
人民幣:RMB 128 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書以獨特的方式講解數據科學,不僅讓讀者可以輕鬆學習數據科學理論,又可以動手(手算和機算)進行數據科學實戰。本書特色:全彩印刷,圖形、表格、思維導圖豐富;避免深奧的數學證明,採用簡單的數學說明;用各種學習圖將本書內容貫穿起來;實戰計算,包含小型數據的演算和大型數據的實戰程序。
    本書共13章,內容涵蓋豐富的數據科學模型,包含關聯分析、聚類分析、貝葉斯分類、近鄰法、決策樹、降維分析、回歸模型等演算法。利用小數據例題介紹計算步驟,同時用R語言驗證計算結果。另外,也有大數據的案例數據,例如:推薦系統、支持向量機、集成學習等。另外,本書只有大數據的案例數據用R語言計算。
    本書適合各個專業領域(包含金融、電商、保險、互聯網等行業)想掌握數據科學的讀者,也可以作為高校、社會培訓機構教材。由於內容比較多,教師可自行選擇教學內容。

作者介紹
編者:陳文賢|責編:欒大成
    陳文賢,美國加州大學伯克利分校工業工程博士,曾任台大信息管理系教授兼系主任、雪城Syracuse大學客座教授、澳大利亞悉尼科技大學UTS客座教授,德明財經科技大學信息管理系特聘教授。

目錄
第一篇  基礎篇
  第1章  大數據概述
    1.1  大數據與相關學科的定義
      1.1.1  大數據的定義
      1.1.2  數據挖掘
      1.1.3  數據挖掘標準過程
      1.1.4  機器學習
      1.1.5  知識管理
      1.1.6  數據科學
      1.1.7  商業智能
      1.1.8  人工智慧
      1.1.9  統計學與大數據比較
      1.1.10  數據名詞的定義
    1.2  系統與模型概念
      1.2.1  系統定義與成分
      1.2.2  輸入,處理,輸出與黑箱
      1.2.3  環境
      1.2.4  反饋
      1.2.5  效率與效果
      1.2.6  模型與建模
      1.2.7  模型的假定與參數
      1.2.8  敏感,穩健或魯棒
      1.2.9  模型的過擬合
    1.3  大數據分析模型的分類
      1.3.1  後設模型
      1.3.2  關係與因果
      1.3.3  基於因果關係的統計學分類
      1.3.4  基於因果關係的大數據分類
      1.3.5  基於數據類型的分類
      1.3.6  基於測量的分類
      1.3.7  數據科學模型的其他分類
    1.4  大數據的江湖傳奇
    1.5  R語言「詞雲圖」代碼
    1.6  本章思維導圖
  第2章  大數據與R語言
    2.1  大數據進位
    2.2  R語言介紹
      2.2.1  安裝R語言軟體
      2.2.2  下載R語言程序包
    2.3  R數據對象的屬性與結構
      2.3.1  數值
      2.3.2  整數
      2.3.3  字元串
      2.3.4  邏輯
      2.3.5  向量
      2.3.6  因子
      2.3.7  矩陣
      2.3.8  數據框
      2.3.9  數組
      2.3.10  列表

      2.3.11  時間序列
      2.3.12  訪問數據類型和結構
      2.3.13  遺失值
      2.3.14  讀入Excel CSV數據
      2.3.15  編輯數據
      2.3.16  保存Excel CSV數據
      2.3.17  數據輸入窗口
      2.3.18  R的數據結構和函數表
    2.4  R的函數包
    2.5  R的數據繪圖
    2.6  本章思維導圖
第二篇  非監督式學習
  第3章  關聯分析
    3.1  關聯分析介紹
      3.1.1  事務與項目的定義
      3.1.2  項集的關聯規則
    3.2  關聯規則數據格式
    3.3  關聯規則的演算法
      3.3.1  Apriori演算法
      3.3.2  關聯規則其他測度值
      3.3.3  負關聯規則
    3.4  關聯規則的優點和缺點
      3.4.1  Apriori演算法的優點
      3.4.2  Apriori演算法的缺點
      3.4.3  關聯規則的評估
    3.5  關聯規則的實例計算
      3.5.1  尿布與啤酒
      3.5.2  豆漿、燒餅與飯糰
      3.5.3  評估與應用
    3.6  R語言實戰
      3.6.1  泰坦尼克號
      3.6.2  商店數據
      3.6.3  食品雜貨數據
      3.6.4  人口收入數據
      3.6.5  鳶尾花數據
    3.7  本章思維導圖
  第4章  聚類分析
    4.1  聚類分析介紹
    4.2  距離與相似度衡量
      4.2.1  數值數據距離
      4.2.2  標準化與歸一化
      4.2.3  0-1數據距離和相似度
      4.2.4  混合數據的距離
      4.2.5  顧客數據的距離
      4.2.6  距離和相似度的轉換
      4.2.7  計算距離的R函數
    4.3  層次聚類分析
      4.3.1  兩類連接
      4.3.2  顧客數據的聚類
      4.3.3  層次聚類的優點和缺點

    4.4  非層次聚類分析
      4.4.1  K-mean聚類
      4.4.2  PAM聚類
      4.4.3  K-mean聚類的優點和缺點
    4.5  聚類分析的評價
    4.6  R語言實戰
      4.6.1  歐洲語言的聚類
      4.6.2  美國電力公司數據
      4.6.3  歐州人蛋白質數據
      4.6.4  紅酒數據
      4.6.5  汽車數據
    4.7  本章思維導圖
  第5章  降維分析
    5.1  降維分析介紹
    5.2  主成分分析
      5.2.1  主成分分析的計算理論
      5.2.2  主成分分析的計算步驟
      5.2.3  主成分分析的優點和缺點
    5.3  R語言程序
    5.4  R語言實戰
      5.4.1  鳶尾花數據
      5.4.2  美國罪犯數據
      5.4.3  美國法官數據
      5.4.4  國家冰球聯盟資料
      5.4.5  美國職業棒球數據
      5.4.6  早餐麥片數據
      5.4.7  紅酒數據
      5.4.8  心理學數據
    5.5  本章思維導圖
第三篇  監督式學習
  第6章  模型選擇與評價
    6.1  模型選擇與評價步驟
    6.2  大數據的抽樣方法
      6.2.1  保留方法抽樣
      6.2.2  自助抽樣法
      6.2.3  632自助法
      6.2.4  過採樣
    6.3  交叉驗證
      6.3.1  k-折交叉驗證
      6.3.2  留一交叉驗證
    6.4  模型選擇
      6.4.1  參數和非參數學習
      6.4.2  偏差和方差
      6.4.3  模型的複雜度
      6.4.4  正則化
      6.4.5  認真學習和懶惰學習
    6.5  模型評價
      6.5.1  二元0-1分類器的評價——混淆矩陣
      6.5.2  混淆矩陣的舉例說明
      6.5.3  二元分類器的成本計算

      6.5.4  二元分類器例題數據R語言
      6.5.5  多標籤分類器的評價
      6.5.6  多標籤分類器評價R語言
      6.5.7  交叉驗證分類的評價
      6.5.8  分類學習的ROC曲線
      6.5.9  連續型目標變數回歸模型的評價
    6.6  R語言實戰
      6.6.1  R語言自動調模與調參
      6.6.2  汽車數據
      6.6.3  乳腺癌診斷數據
    6.7  本章思維導圖
  第7章  回歸分析
    7.1  多元線性回歸
      7.1.1  多元線性回歸模型
      7.1.2  參數估計
      7.1.3  適合性檢驗
      7.1.4  實例計算
      7.1.5  R語言的實例計算
    7.2  變數(特徵)選擇
      7.2.1  偏相關係數
      7.2.2  逐步回歸
      7.2.3  部分子集回歸
      7.2.4  壓縮方法
    7.3  Logistic邏輯回歸
    7.4  R語言實戰
      7.4.1  股票數據
      7.4.2  乳腺癌病理數據
      7.4.3  醫療保險數據
      7.4.4  棒球數據
      7.4.5  波士頓房價數據
      7.4.6  皮瑪數據
    7.5  本章思維導圖
  第8章  近鄰法
    8.1  學習器
      8.1.1  認真學習器和懶惰學習器
      8.1.2  基於實例學習器
      8.1.3  參數學習器和非參數學習器
    8.2  近鄰法介紹
      8.2.1  k-近鄰法演算法步驟
      8.2.2  k-近鄰法分類器
      8.2.3  k-近鄰法回歸
      8.2.4  自變數是分類變數
    8.3  近鄰法的優點和缺點
    8.4  R語言實戰
      8.4.1  食材數據
      8.4.2  鳶尾花數據
      8.4.3  乳癌檢查數據
      8.4.4  美國總統候選人數據
      8.4.5  玻璃數據
      8.4.6  波士頓房價數據

      8.4.7  皮瑪數據
    8.5  本章思維導圖
  第9章  貝葉斯分類
    9.1  貝葉斯公式
    9.2  貝葉斯分類
      9.2.1  樸素貝葉斯分類
      9.2.2  特徵值是連續變數
      9.2.3  樸素貝葉斯分類的優點和缺點
    9.3  貝葉斯分類的實例計算
      9.3.1  天氣和打網球
      9.3.2  驗前概率與似然概率
      9.3.3  拉普拉斯校準
      9.3.4  R語言實例計算
    9.4  R語言實戰
      9.4.1  泰坦尼克號數據
      9.4.2  鳶尾花數據
      9.4.3  垃圾郵件數據
      9.4.4  皮瑪數據
    9.5  本章思維導圖
  第10章  決策樹
    10.1  決策樹概述
      10.1.1  圖形表示
      10.1.2  邏輯表示
      10.1.3  規則表示
      10.1.4  數學公式表示
    10.2  決策樹的信息計算
      10.2.1  信息計算
      10.2.2  熵與信息
      10.2.3  信息增益
      10.2.4  信息增益比
      10.2.5  基尼係數與基尼增益
      10.2.6  卡方統計量
      10.2.7  分枝法則的選擇
      10.2.8  回歸樹
    10.3  決策樹的實例計算
    10.4  決策樹的剪枝
      10.4.1  貪婪演算法
      10.4.2  決策樹剪枝
    10.5  決策樹的優點和缺點
    10.6  R語言實戰
      10.6.1  決策樹R語言包
      10.6.2  打網球數據
      10.6.3  泰坦尼克號數據
      10.6.4  鳶尾花數據
      10.6.5  皮瑪數據
      10.6.6  汽車座椅銷售數據
      10.6.7  波士頓房價數據
      10.6.8  貓數據
      10.6.9  駝背數據
      10.6.10  美國總統選舉投票數據

      10.6.11  員工離職數據
    10.7  本章思維導圖
  第11章  支持向量機
    11.1  支持向量機概述
    11.2  最大間隔分類(硬間隔)
    11.3  支持向量分類(軟間隔)
    11.4  支持向量機(核函數)
      11.4.1  支持向量機的核函數
      11.4.2  多元分類支持向量機
    11.5  支持向量機的優點和缺點
    11.6  支持向量機R語言應用
      11.6.1  隨機正態分佈數據線性核函數
      11.6.2  隨機正態分佈數據徑向基核函數
      11.6.3  三分類數據徑向基核函數
    11.7  R語言實戰
      11.7.1  基因表達數據
      11.7.2  鳶尾花數據
      11.7.3  貓數據
      11.7.4  皮瑪數據
      11.7.5  字元數據
      11.7.6  玻璃數據
    11.8  本章思維導圖
  第12章  集成學習
    12.1  集成學習介紹
    12.2  個別分類方法評價
    12.3  Bagging學習
    12.4  隨機森林
      12.4.1  隨機森林介紹
      12.4.2  隨機森林演算法步驟
      12.4.3  R語言
      12.4.4  隨機森林的優點和缺點
      12.4.5  非監督式學習-鳶尾花數據
      12.4.6  美國大學數據
    12.5  Boosting學習
    12.6  Stacking學習
      12.6.1  皮瑪數據
      12.6.2  員工離職數據
    12.7  R語言實戰
      12.7.1  紅酒數據
      12.7.2  信用數據
      12.7.3  皮瑪數據
      12.7.4  波士頓房價數據
      12.7.5  汽車座椅數據
      12.7.6  顧客流失數據
    12.8  本章思維導圖
  第13章  推薦系統
    13.1  推薦系統概述
    13.2  過濾推薦
      13.2.1  相似度
      13.2.2  基於用戶的協同過濾

      13.2.3  基於項目的協同過濾
      13.2.4  協同過濾的評價
      13.2.5  協同過濾的優點和缺點
      13.2.6  混合的推薦機制
    13.3  R語言應用
      13.3.1  推薦系統R語言包
      13.3.2  recommenderlab函數程序
      13.3.3  模擬數據
    13.4  R語言實戰
      13.4.1  電影數據
      13.4.2  笑話數據
    13.5  本章思維導圖
結語
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032