幫助中心 | 我的帳號 | 關於我們

應用回歸及分類(基於R與Python的實現第3版)/基於R應用的統計學叢書

  • 作者:編者:吳喜之//張敏|責編:王美玲//陳怡梅
  • 出版社:中國人民大學
  • ISBN:9787300337753
  • 出版日期:2025/05/01
  • 裝幀:平裝
  • 頁數:268
人民幣:RMB 56 元      售價:
放入購物車
加入收藏夾

內容大鋼
    《應用回歸及分類——基於R與Python的實現(第3版)》以革新傳統教材的視角,系統性地融合經典統計學與前沿機器學習演算法,強調回歸與分類問題的同等重要性。本書突破傳統教材偏重數學推導與線性回歸的局限,深入探討電腦時代興起的機器學習演算法在分類領域的卓越表現。內容以數據驅動為核心,摒棄對模型假設的過度依賴,倡導通過交叉驗證等客觀方法評估模型性能,並依據數據特性靈活選擇最優解法。
    書中實踐導向鮮明,全程結合R與Python兩大開源工具,通過豐富的案例演示從數據預處理到模型構建的全流程,確保讀者能獨立完成分析並得出可靠的結論。與傳統教材不同,本書直面各類方法的局限性,對比不同場景下模型的優缺點,鼓勵讀者進行批判性的思考。同時,強調開源生態的資源優勢,助力讀者緊跟統計學飛速發展的步伐。
    本書秉承「授人以漁」的理念,不僅傳授知識,更培養自主探索意識,倡導通過編程實踐提升解決複雜問題的能力。其內容設計兼顧學術嚴謹與實用價值,是連接傳統統計與現代機器學習的橋樑,適合渴望突破固有思維、掌握前沿工具的讀者。

作者介紹
編者:吳喜之//張敏|責編:王美玲//陳怡梅

目錄
第1章  引言
  1.1  作為科學的統計
    1.1.1  統計是科學
    1.1.2  模型驅動及數據驅動
  1.2  數據及模型
    1.2.1  數據中的信息
    1.2.2  有監督學習模型
    1.2.3  使用交叉驗證來評價和比較模型
    1.2.4  有監督學習過程匯總
    1.2.5  傳統統計模型和機器學習模型簡介
    1.2.6  歷史:本來是數據驅動的統計變成模型驅動
    1.2.7  今後:借用Donoho(2024)
  1.3  關於軟體的說明
    1.3.1  本書使用R和Python語言
    1.3.2  本書中的自編函數
  1.4  有監督學習傳統統計方法與機器學習方法的交叉驗證比較
    1.4.1  傳統統計及機器學習回歸方法交叉驗證精度比較
    1.4.2  傳統統計及機器學習二分類方法交叉驗證精度比較
    1.4.3  傳統統計及機器學習多分類方法交叉驗證精度比較
  1.5  習題
  1.6  本章的R和Python代碼
    1.6.1  1.4.1節的R和Python代碼
    1.6.2  1.4.2節的R和Python代碼
    1.6.3  1.4.3節的R和Python代碼
第2章  經典線性回歸
  2.1  模型形式
    2.1.1  回顧高中課程:自變數為一個數量變數的情況
    2.1.2  自變數為多個數量變數的情況
    2.1.3  「線性」是對係數而言的
  2.2  用最小二乘法估計線性模型
    2.2.1  一個數量自變數的情況
    2.2.2  多個自變數的情況
    2.2.3  自變數有分類變數的情況*
  2.3  回歸係數的大小沒有可解釋性
    2.3.1  「皇帝的新衣」
    2.3.2  最小二乘線性回歸僅是眾多回歸方法之一,過多的延伸是浪費
  2.4  傳統統計關於線性回歸係數的性質和推斷*
    2.4.1  基本假定
    2.4.2  關於H0:βi=0H1:βi≠0的t檢驗
    2.4.3  關於多自變數係數複合假設F檢驗及方差分析表
    2.4.4  分類變數的顯著性必須從方差分析表看出
    2.4.5  關於「殘差的檢驗及點圖」
  2.5  通過一個「教材數據」來理解簡單最小二乘回歸
    2.5.1  幾種競爭的線性模型
    2.5.2  孤立看模型可能會產生多個模型都「正確」的結論
    2.5.3  多個模型相比較以得到相對較好的模型
    2.5.4  對例2.6喂毒素數據的6個模型做預測精度的交叉驗證
  2.6  處理線性回歸多重共線性的經典方法*
    2.6.1  多重共線性
    2.6.2  自變數子集選擇

    2.6.3  嶺回歸
    2.6.4  lasso回歸
    2.6.5  適應性lasso回歸
    2.6.6  通過例2.7擊球手數據比較幾種方法的預測精度
  2.7  損失函數及分位數回歸簡介*
    2.7.1  損失函數
    2.7.2  恩格爾數據例子的分位數回歸
  2.8  習題
  2.9  本章的R和Python代碼
    2.9.1  2.2節的代碼
    2.9.2  2.3節的代碼
    2.9.3  2.4節的代碼
    2.9.4  2.5節的Python代碼
    2.9.5  2.6節的代碼
    2.9.6  2.7節的代碼
第3章  廣義線性模型
  3.1  模型
  3.2  指數分佈族及典則連接函數
  3.3  似然函數和准似然函數
    3.3.1  似然函數和記分函數
    3.3.2  廣義線性模型的記分函數
    3.3.3  准記分函數、准對數似然函數及准似然估計
  3.4  廣義線性模型的一些推斷問題
    3.4.1  最大似然估計和Wald檢驗
    3.4.2  偏差和基於偏差的似然比檢驗
    3.4.3  散布參數的估計
  3.5  logistic回歸和二元分類問題
    3.5.1  logistic回歸(probit回歸)
    3.5.2  用logistic回歸做分類
  3.6  Poisson對數線性模型及頻數數據的預測*
    3.6.1  Poisson對數線性模型
    3.6.2  使用Poisson對數線性模型的一些問題
    3.6.3  Poisson對數線性模型的預測及交叉驗證
  3.7  習題
  3.8  本章的Python代碼
    3.8.1  3.5節的代碼
    3.8.2  3.6節的代碼
第4章  機器學習:有監督學習
  4.1  引言
  4.2  決策樹
    4.2.1  決策樹的基本構造
    4.2.2  決策樹是把因變數數據變純的過程
    4.2.3  一個真實數據的決策樹回歸實踐
    4.2.4  決策樹回歸和線性回歸的比較和交叉驗證
    4.2.5  一個真實數據的決策樹分類實踐
  4.3  集成演算法的思想
    4.3.1  基本思想
    4.3.2  集成演算法及自助法抽樣
  4.4  bagging方法
    4.4.1  概述

    4.4.2  一個真實數據的bagging回歸實踐
    4.4.3  例4.3慢性腎病數據的bagging分類實踐
  4.5  隨機森林
    4.5.1  概述
    4.5.2  例4.5能源效率數據的隨機森林回歸
    4.5.3  例4.6進口汽車數據的隨機森林分類
  4.6  AdaBoost分類
    4.6.1  概述
    4.6.2  對例4.3慢性腎病數據的分類及變數重要性
    4.6.3  使用AdaBoost預測
    4.6.4  用自帶函數做交叉驗證
    4.6.5  分類差額
  4.7  mboost回歸
    4.7.1  概述
    4.7.2  例子及擬合全部數據
    4.7.3  對例4.6進口汽車數據做幾種方法的交叉驗證
  4.8  Xgboost模型
    4.8.1  模型概述
    4.8.2  對例4.7皮膚病數據做Xgboost分類
    4.8.3  對例4.8服裝業生產率數據做Xgboost回歸
  4.9  神經網路
    4.9.1  神經網路原理
    4.9.2  神經網路的計算步驟
    4.9.3  神經網路回歸實例
    4.9.4  神經網路分類實例
  4.10  支持向量機
    4.10.1  支持向量機分類的基本概念:線性可分問題
    4.10.2  支持向量機分類的基本概念:非線性可分問題
    4.10.3  多於兩類的支持向量機分類
    4.10.4  對例4.3慢性腎病全部數據的擬合
    4.10.5  支持向量機回歸的基本概念:線性問題
    4.10.6  支持向量機回歸的基本概念:非線性問題
    4.10.7  用支持向量機擬合例4.4翼型數據
  4.11  k最近鄰方法
    4.11.1  距離的定義
    4.11.2  k最近鄰方法分類
    4.11.3  k最近鄰回歸
  4.12  樸素貝葉斯分類
    4.12.1  樸素貝葉斯原理
    4.12.2  用樸素貝葉斯方法對例4.7皮膚病數據做分類
  4.13  案例分析:例4.8服裝業生產率數據
    4.13.1  探索數據
    4.13.2  例4.8服裝業生產率數據:通過回歸交叉驗證選擇模型
  4.14  案例分析:例4.9信用卡批准數據
    4.14.1  探索數據和彌補缺失值
    4.14.2  例4.9信用卡批准數據:通過回歸交叉驗證選擇模型
  4.15  習題
  4.16  本章的R和Python代碼
    4.16.1  4.2節的代碼
    4.16.2  4.3節的R代碼

    4.16.3  4.4節的代碼
    4.16.4  4.5節的代碼
    4.16.5  4.6節的代碼
    4.16.6  4.7節的代碼
    4.16.7  4.8節的代碼
    4.16.8  4.9節的代碼
    4.16.9  4.10節的代碼
    4.16.10  4.11節的代碼
    4.16.11  4.12節的代碼
    4.16.12  4.13節的代碼
    4.16.13  4.14節的代碼
第5章  判別分析*
  5.1  線性判別分析
  5.2  Fisher判別分析
  5.3  混合線性判別分析
  5.4  習題
第6章  混合效應模型*
  6.1  概念
  6.2  通過一個數值例子解釋線性混合模型
    6.2.1  受歡迎程度數據(例6.1)
    6.2.2  對例6.1受歡迎程度數據的探索性分析
    6.2.3  對例6.1受歡迎程度數據的建模探索
    6.2.4  交叉驗證
  6.3  線性混合模型的一般形式
    6.3.1  線性混合模型的一般形式
    6.3.2  例6.2數學分數數據
    6.3.3  牛奶蛋白質含量數據(例6.3)
    6.3.4  帕金森病遠程監控數據(例6.4)
  6.4  廣義線性混合模型
    6.4.1  例子
    6.4.2  惡性黑色素瘤死亡率數據(例6.5)
    6.4.3  癲癇數據(例6.6)
    6.4.4  馬德拉斯精神分裂症數據(例6.7)
  6.5  決策樹關聯的混合模型
    6.5.1  決策樹關聯的混合模型REEM tree和GLMM tree簡介
    6.5.2  GLMM tree擬合癲癇數據(例6.6)
    6.5.3  用REEM tree和GLMM tree擬合數學分數數據(例6.2)
  6.6  對例6.2數學分數數據做第6章方法與其他模型的比較
  6.7  Python對例6.2數學分數數據的MERF模型及其他模型比較
  6.8  習題
第7章  生存分析及Cox模型*
  7.1  基本概念
  7.2  生存函數的Kaplan-Meier估計
  7.3  累積危險函數
  7.4  估計和檢驗*
    7.4.1  生存時間的中位數和均值估計
    7.4.2  幾個樣本的危險函數檢驗
  7.5  Cox比例危險模型
  7.6  習題
  7.7  本章的Python代碼

    7.7.1  7.2節例7.1艾滋病數據的Kaplan-Meier估計
    7.7.2  7.3節例7.1艾滋病數據的Nelson-Aalen累積危險函數
    7.7.3  7.5節例7.1艾滋病數據的Cox比例危險模型
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032