幫助中心 | 我的帳號 | 關於我們

Python數據科學應用從入門到精通

  • 作者:編者:張甜//楊維忠|責編:趙軍
  • 出版社:清華大學
  • ISBN:9787302646853
  • 出版日期:2023/11/01
  • 裝幀:平裝
  • 頁數:466
人民幣:RMB 129 元      售價:
放入購物車
加入收藏夾

內容大鋼
    隨著數據存儲、數據處理等大數據技術的快速發展,數據科學在各行各業得到廣泛的應用。數據清洗、特徵工程、數據可視化、數據挖掘與建模等已成為高校師生和職場人士迎接數字化浪潮、與時俱進提升專業技能的必修課程。本書將「Python課程學習」與「數據科學應用」有機結合,為數字化人才的培養助力。
    全書共分13章,內容包括:第1章數據科學應用概述;第2章Python的入門基礎知識;第3章數據清洗;第4?6章特徵工程介紹,包括特徵選擇、特徵處理和特徵提取;第7章數據可視化應用;第8?13章介紹6種數據挖掘與建模的方法,分別為線性回歸、Logistic回歸、決策樹、隨機森林、神經網路、RFM分析。
    本書既適合作為經濟學、管理學、統計學、金融學、社會學、醫學、電子商務等相關專業的學生學習Python數據科學應用的專業教材或參考書,也適合作為企事業單位數字化人才培養的教科書與工具書。此外,還可以作為職場人士提升數據處理與分析挖掘能力,提高工作效能和績效水平的自學Python數據科學應用的工具書。

作者介紹
編者:張甜//楊維忠|責編:趙軍

目錄
第1章  數據科學應用概述
  1.1  什麼是數據清洗、特徵工程、數據可視化、數據挖掘與建模
    1.1.1  數據清洗的概念
    1.1.2  特徵工程的概念
    1.1.3  數據可視化的概念
    1.1.4  數據挖掘與建模的概念
  1.2  為什麼要開展數據清洗、特徵工程、數據可視化和數據挖掘與建模
    1.2.1  數據清洗、特徵工程的重要性
    1.2.2  數據可視化的重要性
    1.2.3  數據挖掘與建模的重要性
  1.3  為什麼要將Python作為實現工具
  1.4  數據清洗、特徵工程、數據可視化和數據挖掘與建模的主要內容
    1.4.1  數據清洗的主要內容
    1.4.2  特徵工程的主要內容
    1.4.3  數據可視化的主要內容
    1.4.4  數據挖掘與建模的主要內容
  1.5  數據清洗、特徵工程、數據可視化和數據挖掘與建模的應用場景
    1.5.1  數據清洗、特徵工程的應用場景
    1.5.2  數據可視化的應用場景
    1.5.3  數據挖掘與建模的應用場景
  1.6  數據清洗、特徵工程和數據可視化的注意事項
    1.6.1  數據清洗、特徵工程的注意事項
    1.6.2  數據可視化的注意事項
  1.7  數據挖掘與建模的注意事項
  1.8  習題
第2章  Python入門基礎
  2.1  Python概述
  2.2  Anaconda平台的下載與安裝
    2.2.1  Anaconda平台的下載
    2.2.2  Anaconda平台的安裝
    2.2.3  Anaconda Prompt(Anaconda3)
    2.2.4  Spyder(Anaconda3)的介紹及偏好設置
    2.2.5  Spyder(Anaconda3)窗口介紹
  2.3  Python的註釋
  2.4  基本輸出函數—print()函數
  2.5  基本輸入函數—input()函數
  2.6  Python的保留字與標識符
    2.6.1  Python中的保留字
    2.6.2  Python的標識符
  2.7  Python的變數
  2.8  Python的基本數據類型
  2.9  Python的數據運算符
  2.10  Python序列的概念及通用操作
    2.10.1  索引
    2.10.2  切片
    2.10.3  相加
    2.10.4  相乘
    2.10.5  元素檢查
    2.10.6  與序列相關的內置函數
  2.11  Python列表

    2.11.1  列表的基本操作
    2.11.2  列表元素的基本操作
  2.12  Python元組
    2.12.1  元組的基本操作
    2.12.2  元組元素的基本操作
  2.13  Python字典
    2.13.1  字典的基本操作
    2.13.2  字典元素的基本操作
  2.14  Python集合
  2.15  Python字元串
  2.16  習題
第3章  數據清洗
  3.1  Python數據清洗基礎
    3.1.1  Python函數與模塊
    3.1.2  numpy模塊數組
    3.1.3  pandas模塊序列
    3.1.4  pandas模塊數據框
    3.1.5  Python流程式控制制語句
  3.2  Python數據讀取、合併、寫入
    3.2.1  讀取、合併、寫入文本文件(CSV或者TXT)
    3.2.2  讀取、合併、寫入Excel數據文件
    3.2.3  讀取、合併、寫入Stata數據文件
    3.2.4  讀取、合併SPSS數據文件
  3.3  Python數據檢索
  3.4  Python數據行列處理
    3.4.1  刪除變數列、樣本行
    3.4.2  更改變數的列名稱、調整變數列順序
    3.4.3  改變列的數據格式
    3.4.4  多列轉換
    3.4.5  數據百分比格式轉換
  3.5  Python數據缺失值處理
    3.5.1  查看數據集中的缺失值
    3.5.2  填充數據集中的缺失值
    3.5.3  刪除數據集中的缺失值
  3.6  Python數據重複值處理
    3.6.1  查看數據集中的重複值
    3.6.2  刪除數據集中的重複值
  3.7  Python數據異常值處理
    3.7.1  運用3δ準則檢測異常值
    3.7.2  繪製箱圖檢測異常值
    3.7.3  刪除異常值
    3.7.4  3δ準則替換異常值
    3.7.5  1%/99%分位數替換異常值
  3.8  Python數據透視表、描述性分析和交叉表分析
    3.8.1  數據透視表
    3.8.2  描述性分析
    3.8.3  交叉表分析
  3.9  習題
第4章  特徵選擇
  4.1  特徵選擇的概念、原則及方法

    4.1.1  特徵選擇的概念
    4.1.2  特徵選擇的原則
    4.1.3  特徵選擇的方法
  4.2  過濾法—去掉低方差的特徵
  4.3  過濾法—單變數特徵選擇
    4.3.1  卡方檢驗
    4.3.2  相關性分析
    4.3.3  方差分析(F檢驗)
    4.3.4  互信息
  4.4  包裹法—遞歸特徵消除
  4.5  嵌入法
    4.5.1  隨機森林演算法選擇特徵變數
    4.5.2  提升法演算法選擇特徵變數
    4.5.3  Logistic回歸演算法選擇特徵變數
    4.5.4  線性支持向量機演算法選擇特徵變數
  4.6  習題
第5章  特徵處理
  5.1  特徵歸一化、特徵標準化、樣本歸一化
    5.1.1  特徵歸一化
    5.1.2  特徵標準化
    5.1.3  樣本歸一化
  5.2  特徵等寬分箱和等頻分箱
  5.3  特徵決策樹分箱
    5.3.1  信息熵
    5.3.2  信息增益
    5.3.3  增益比率
    5.3.4  基尼指數
    5.3.5  變數重要性
    5.3.6  特徵決策樹分箱的Python實現
  5.4  特徵卡方分箱
  5.5  WOE(證據權重)和IV(信息價值)
    5.5.1  WOE和IV的概念
    5.5.2  WOE的作用
    5.5.3  WOE編碼注意事項
    5.5.4  IV的作用
    5.5.5  為什麼使用IV而不是WOE來判斷特徵變數的預測能力
  5.6  WOE、IV的Python實現
    5.6.1  載入分析所需要的模塊和函數
    5.6.2  數據讀取及觀察
    5.6.3  描述性統計分析
    5.6.4  特徵變數篩選
    5.6.5  劃分訓練樣本和測試樣本
    5.6.6  分箱操作
    5.6.7  畫分箱圖
    5.6.8  調整分箱
    5.6.9  將訓練樣本和測試樣本進行WOE編碼
    5.6.10  構建Logistic模型進行預測
    5.6.11  模型預測及評價
    5.6.12  繪製ROC曲線,計算AUC值
  5.7  習題

第 6 章  特徵提取
  6.1  無監督降維技術—主成分分析
    6.1.1  主成分分析的基本原理
    6.1.2  主成分分析的數學概念
    6.1.3  主成分的特徵值
    6.1.4  樣本的主成分得分
    6.1.5  主成分載荷
    6.1.6  主成分分析的Python實現
  6.2  有監督降維技術—線性判別分析
    6.2.1  線性判別分析的基本原理
    6.2.2  線性判別分析的演算法過程
    6.2.3  線性判別分析的Python實現
  6.3  習題
第 7 章  數據可視化
  7.1  四象限圖
    7.1.1  四象限圖簡介
    7.1.2  案例數據介紹
    7.1.3  Python代碼示例
  7.2  熱力圖
    7.2.1  熱力圖簡介
    7.2.2  案例數據介紹
    7.2.3  Python代碼示例
  7.3  直方圖
    7.3.1  直方圖簡介
    7.3.2  案例數據介紹
    7.3.3  Python代碼示例
  7.4  條形圖、核密度圖和正態QQ圖
    7.4.1  條形圖、核密度圖和正態QQ圖簡介
    7.4.2  案例數據介紹
    7.4.3  Python代碼示例
  7.5  散點圖
    7.5.1  散點圖簡介
    7.5.2  案例數據介紹
    7.5.3  Python代碼示例
  7.6  線圖(含時間序列趨勢圖)
    7.6.1  線圖(含時間序列趨勢圖)簡介
    7.6.2  案例數據介紹
    7.6.3  Python代碼示例
  7.7  雙縱軸線圖
    7.7.1  雙縱軸線圖簡介
    7.7.2  案例數據介紹
    7.7.3  Python代碼示例
  7.8  回歸擬合圖
    7.8.1  回歸擬合圖簡介
    7.8.2  案例數據介紹
    7.8.3  Python代碼示例
  7.9  箱圖
    7.9.1  箱圖簡介
    7.9.2  案例數據介紹
    7.9.3  Python代碼示例

  7.10  小提琴圖
    7.10.1  小提琴圖簡介
    7.10.2  案例數據介紹
    7.10.3  Python代碼示例
  7.11  聯合分佈圖
    7.11.1  聯合分佈圖簡介
    7.11.2  案例數據介紹
    7.11.3  Python代碼示例
  7.12  雷達圖
    7.12.1  雷達圖簡介
    7.12.2  案例數據介紹
    7.12.3  Python代碼示例
  7.13  餅圖
    7.13.1  餅圖簡介
    7.13.2  案例數據介紹
    7.13.3  Python代碼示例
  7.14  習題
第8章  數據挖掘與建模1——線性回歸
  8.1  基本思想
    8.1.1  線性回歸演算法的概念及數學解釋
    8.1.2  線性回歸演算法的優點
    8.1.3  線性回歸演算法的缺點
  8.2  應用案例
    8.2.1  數據挖掘與建模思路
    8.2.2  數據文件介紹
    8.2.3  導入分析所需要的模塊和函數
    8.2.4  數據讀取及觀察
  8.3  使用smf進行線性回歸
    8.3.1  使用smf進行線性回歸
    8.3.2  多重共線性檢驗
    8.3.3  解決多重共線性問題
    8.3.4  繪製擬合回歸平面
  8.4  使用sklearn進行線性回歸
    8.4.1  使用驗證集法進行模型擬合
    8.4.2  更換隨機數種子,使用驗證集法進行模型擬合
    8.4.3  使用10折交叉驗證法進行模型擬合
    8.4.4  使用10折重複10次交叉驗證法進行模型擬合
    8.4.5  使用留一交叉驗證法進行模型擬合
  8.5  習題
第9章  數據挖掘與建模2——Logistic回歸
  9.1  基本思想
    9.1.1  Logistic回歸演算法的概念及數學解釋
    9.1.2  「分類問題監督式學習」的性能度量
  9.2  應用案例
    9.2.1  數據文件介紹
    9.2.2  導入分析所需要的模塊和函數
    9.2.3  數據讀取及觀察
  9.3  描述性分析
  9.4  數據處理
    9.4.1  區分分類特徵和連續特徵並進行處理

    9.4.2  將樣本全集分割為訓練樣本和測試樣本
  9.5  建立二元Logistic回歸演算法模型
    9.5.1  使用statsmodels建立二元Logistic回歸演算法模型
    9.5.2  使用sklearn建立二元Logistic回歸演算法模型
    9.5.3  特徵變數重要性水平分析
    9.5.4  繪製ROC曲線,計算AUC值
    9.5.5  計算科恩kappa得分
  9.6  習題
第10章  數據挖掘與建模3——決策樹
  10.1  基本思想
    10.1.1  決策樹演算法的概念與原理
    10.1.2  決策樹的剪枝
    10.1.3  包含剪枝決策樹的損失函數
  10.2  數據準備
    10.2.1  案例數據說明
    10.2.2  導入分析所需要的模塊和函數
  10.3  分類問題決策樹演算法示例
    10.3.1  變數設置及數據處理
    10.3.2  未考慮成本-複雜度剪枝的決策樹分類演算法模型
    10.3.3  考慮成本-複雜度剪枝的決策樹分類演算法模型
    10.3.4  繪製圖形觀察葉節點總不純度隨alpha值的變化情況
    10.3.5  繪製圖形觀察節點數和樹的深度隨alpha值的變化情況
    10.3.6  繪製圖形觀察訓練樣本和測試樣本的預測準確率隨alpha值的變化情況
    10.3.7  通過10折交叉驗證法尋求最優alpha值
    10.3.8  決策樹特徵變數重要性水平分析
    10.3.9  繪製ROC曲線
    10.3.10  運用兩個特徵變數繪製決策樹演算法決策邊界圖
  10.4  回歸問題決策樹演算法示例
    10.4.1  變數設置及數據處理
    10.4.2  未考慮成本-複雜度剪枝的決策樹回歸演算法模型
    10.4.3  考慮成本-複雜度剪枝的決策樹回歸演算法模型
    10.4.4  繪製圖形觀察葉節點總均方誤差隨alpha值的變化情況
    10.4.5  繪製圖形觀察節點數和樹的深度隨alpha值的變化情況
    10.4.6  繪製圖形觀察訓練樣本和測試樣本的擬合優度隨alpha值的變化情況
    10.4.7  通過10折交叉驗證法尋求最優alpha值並開展特徵變數重要性水平分析
    10.4.8  最優模型擬合效果圖形展示
    10.4.9  構建線性回歸演算法模型進行對比
  10.5  習題
第11章  數據挖掘與建模4——隨機森林
  11.1  隨機森林演算法的基本原理
    11.1.1  模型融合的基本思想
    11.1.2  集成學習的概念與分類
    11.1.3  裝袋法的概念與原理
    11.1.4  隨機森林演算法的概念與原理
    11.1.5  隨機森林演算法特徵變數重要性度量
    11.1.6  部分依賴圖與個體條件期望圖
  11.2  數據準備
    11.2.1  案例數據說明
    11.2.2  導入分析所需要的模塊和函數
  11.3  分類問題隨機森林演算法示例

    11.3.1  變數設置及數據處理
    11.3.2  二元Logistic回歸和單棵分類決策樹演算法
    11.3.3  裝袋法分類演算法
    11.3.4  隨機森林分類演算法
    11.3.5  尋求max_features最優參數
    11.3.6  尋求n_estimators最優參數
    11.3.7  隨機森林特徵變數重要性水平分析
    11.3.8  繪製部分依賴圖與個體條件期望圖
    11.3.9  模型性能評價
    11.3.10  繪製ROC曲線
    11.3.11  運用兩個特徵變數繪製隨機森林演算法決策邊界圖
  11.4  回歸問題隨機森林演算法示例
    11.4.1  變數設置及數據處理
    11.4.2  線性回歸、單棵回歸決策樹演算法
    11.4.3  裝袋法回歸演算法
    11.4.4  隨機森林回歸演算法
    11.4.5  尋求max_features最優參數
    11.4.6  尋求n_estimators最優參數
    11.4.7  隨機森林特徵變數重要性水平分析
    11.4.8  繪製部分依賴圖與個體條件期望圖
    11.4.9  最優模型擬合效果圖形展示
  11.5  習題
第12章  數據挖掘與建模5——神經網路
  12.1  神經網路演算法的基本原理
    12.1.1  神經網路演算法的基本思想
    12.1.2  感知機
    12.1.3  多層感知機
    12.1.4  神經元激活函數
    12.1.5  誤差反向傳播演算法(BP演算法)
    12.1.6  萬能近似定理及多隱藏層優勢
    12.1.7  BP演算法過擬合問題的解決
  12.2  數據準備
    12.2.1  案例數據說明
    12.2.2  導入分析所需要的模塊和函數
  12.3  回歸神經網路演算法示例
    12.3.1  變數設置及數據處理
    12.3.2  單隱藏層的多層感知機演算法
    12.3.3  神經網路特徵變數重要性水平分析
    12.3.4  繪製部分依賴圖與個體條件期望圖
    12.3.5  擬合優度隨神經元個數變化的可視化展示
    12.3.6  通過K折交叉驗證尋求單隱藏層最優神經元個數
    12.3.7  雙隱藏層的多層感知機演算法
    12.3.8  最優模型擬合效果圖形展示
  12.4  二分類神經網路演算法示例
    12.4.1  變數設置及數據處理
    12.4.2  單隱藏層二分類問題神經網路演算法
    12.4.3  雙隱藏層二分類問題神經網路演算法
    12.4.4  早停策略減少過擬合問題
    12.4.5  正則化(權重衰減)策略減少過擬合問題
    12.4.6  模型性能評價

    12.4.7  繪製ROC曲線
    12.4.8  運用兩個特徵變數繪製二分類神經網路演算法決策邊界圖
  12.5  習題
第13章  數據挖掘與建模6據挖掘與建分析
  13.1  RFM分析的基本原理
    13.1.1  RFM分析的基本思想
    13.1.2  RFM分類組合與客戶類型對應情況
    13.1.3  不同類型客戶的特點及市場營銷策略
  13.2  數據準備
    13.2.1  案例數據說明
    13.2.2  導入分析所需要的模塊和函數
  13.3  RFM分析示例
    13.3.1  數據讀取及觀察
    13.3.2  計算R、F、M分值
    13.3.3  生成RFM數據集
    13.3.4  不同類別客戶數量分析
    13.3.5  不同類別客戶消費金額分析
  13.4  習題

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032