零基礎入門Python數據分析與機器學習

作者：王國平|責編:王金柱
出版社：清華大學
ISBN：9787302589174

出版日期：2021/10/01
裝幀：平裝
頁數：257

人民幣：RMB 69 元售價：元

內容大鋼

本書由一線的資深數據分析師精寫，以新版Python 3.10作為數據分析與挖掘的編程語言，循序漸進地介紹了Python數據分析的方法與技巧以及機器學習演算法及其應用案例。全書首先講解Python基礎語法，以便於從未接觸過編程的讀者能夠快速上手，然後介紹了當前流行的常用數據分析工具，如數值計算工具NumPy、數據處理工具Pandas、數據可視化工具Matplotlib和數據挖掘工具Sklearn等，最後介紹了10大常用機器學習演算法及其在數據挖掘中的應用，針對每一個演算法均給出了案例實現，以便於讀者能夠學有所用。
本書凝聚編者十余年工作心得，以豐富實例介紹理論知識，並給出大量應用實踐，很適合初入數據分析職場的從業者提升技能，本書也可以作為統計學、數學、經濟學、金融學、管理學以及相關理工科專業的本科生、研究生的教學參考書。

作者介紹

王國平|責編:王金柱
王國平，畢業於上海海洋大學，碩士，主要從事數據可視化、數據挖掘和大數據分析與研究等工作。精通Tableau、SPSS、SPSS Modeler、Power BI等軟體，已出版《IBM SPSS Modeler數據與文本挖掘實戰》《Microsoft Power BI數據可視化與數據分析》《Tableau數據可視化從入門到精通》《SPSS統計分析與行業應用實戰》等圖書。

第1章  構建數據分析開發環境
  1.1  數據分析概述
    1.1.1  為什麼要進行數據分析
    1.1.2  數據分析的流程與思維
  1.2  開發環境的構建
    1.2.1  安裝Anaconda
    1.2.2  安裝Jupyter庫
    1.2.3  安裝PyCharm社區版
    1.2.4  包管理工具
    1.2.5  環境測試
  1.3  必會的Python數據分析包
    1.3.1  NumPy數組操作
    1.3.2  Pandas數據清洗
    1.3.3  Matplotlib數據可視化
    1.3.4  Sklearn數據建模
  1.4  一個簡單的數據分析案例
  1.5  小結與課後練習
第2章  Python核心基礎
  2.1  Python數據類型
    2.1.1  數值類型
    2.1.2  字元串類型
    2.1.3  列表類型
    2.1.4  元組類型
    2.1.5  集合類型
    2.1.6  字典類型
  2.2  Python基礎語法
    2.2.1  代碼行與縮進
    2.2.2  條件if及if嵌套
    2.2.3  循環：while與for
    2.2.4  格式化：format()與%
  2.3  Python高階函數
    2.3.1  map()函數
    2.3.2  reduce()函數
    2.3.3  filter()函數
    2.3.4  sorted()函數
  2.4  Python編程技巧
    2.4.1  自動補全程序
    2.4.2  變數值的互換
    2.4.3  列表解析式
    2.4.4  元素序列解包
  2.5  小結與課後練習
第3章  Python數據分析基礎
  3.1  數據的讀取
    3.1.1  本地離線數據
    3.1.2  Web在線數據
    3.1.3  常用資料庫數據
  3.2  數據的索引
    3.2.1  創建與查看索引
    3.2.2  索引重構與恢復
    3.2.3  索引調整與排序

  3.3  數據的切片
    3.3.1  提取多列數據
    3.3.2  提取多行數據
    3.3.3  提取區域數據
  3.4  數據的聚合
    3.4.1  指定列數據統計
    3.4.2  多欄位分組統計
    3.4.3  自定義聚合指標
  3.5  小結與課後練習
第4章  NumPy數組操作
  4.1  NumPy索引與切片
    4.1.1  數組的索引
    4.1.2  布爾型索引
    4.1.3  花式索引
    4.1.4  數組的切片
    4.1.5  設置切片步長
  4.2  NumPy維數變換
    4.2.1  reshape()函數
    4.2.2  shape()函數
    4.2.3  resize()函數
    4.2.4  ravel()函數
    4.2.5  flatten()函數
  4.3  NumPy廣播機制
    4.3.1  廣播
    4.3.2  廣播機制
    4.3.3  廣播機制變化過程
    4.3.4  廣播不兼容
  4.4  NumPy矩陣運算
    4.4.1  矩陣概述
    4.4.2  矩陣的乘法
    4.4.3  矩陣的內積
    4.4.4  矩陣的外積
  4.5  小結與課後練習
第5章  Pandas數據清洗
  5.1  重複值檢測與處理
    5.1.1  重複值的檢測
    5.1.2  重複值的處理
  5.2  缺失值檢測與處理
    5.2.1  缺失值的檢測
    5.2.2  缺失值的處理
  5.3  異常值檢測與處理
    5.3.1  異常值的檢測
    5.3.2  異常值的處理
  5.4  金融數據的處理實戰
    5.4.1  讀取上證指數數據
    5.4.2  提取特定日期數據
    5.4.3  填充非交易日數據
  5.5  小結與課後練習
第6章  Matplotlib數據可視化
  6.1  圖形參數設置

    6.1.1  設置圖形線條
    6.1.2  設置圖形坐標軸
    6.1.3  設置圖形圖例
  6.2  繪圖參數文件及主要函數
    6.2.1  修改繪圖參數文件
    6.2.2  主要繪圖函數簡介
    6.2.3  繪圖函數應用案例——分析某企業2020年銷售額增長情況
  6.3  Matplotlib圖形整合
    6.3.1  subplot()函數
    6.3.2  subplots()函數
    6.3.3  圖形整合實戰——分析2020年某企業產品銷售的區域差異性
  6.4  Matplotlib可視化案例
    6.4.1  商品區域銷售額條形圖
    6.4.2  商品每周利潤率折線圖
    6.4.3  商品利潤貢獻率餅圖
  6.5  小結與課後練習
第7章  Scikit-Learn機器學習
  7.1  機器學習及其類型
    7.1.1  機器學習的特點
    7.1.2  機器學習的分類
    7.1.3  機器學習的應用
  7.2  Sklearn機器學習概述
    7.2.1  Sklearn的基本概念
    7.2.2  Sklearn的主要演算法
    7.2.3  選擇合適的演算法
  7.3  Sklearn機器學習流程
    7.3.1  獲取數據
    7.3.2  預處理數據
    7.3.3  訓練模型
    7.3.4  評估模型
    7.3.5  優化模型
    7.3.6  應用模型
  7.4  Sklearn自帶的數據集
    7.4.1  鳶尾花數據集簡介
    7.4.2  乳腺癌數據集簡介
    7.4.3  波士頓房價數據集簡介
    7.4.4  糖尿病數據集簡介
    7.4.5  手寫數字數據集簡介
    7.4.6  紅酒數據集簡介
  7.5  小結與課後練習
第8章  監督式機器學習
  8.1  線性回歸及其案例
    8.1.1  線性回歸簡介
    8.1.2  線性回歸的建模
    8.1.3  汽車價格的預測
  8.2  邏輯回歸及其案例
    8.2.1  邏輯回歸簡介
    8.2.2  邏輯回歸的建模
    8.2.3  客戶收入的預測
  8.3  Lasso回歸與Ridge回歸

    8.3.1  Lasso回歸及案例
    8.3.2  Ridge回歸及案例
    8.3.3  兩種回歸的比較
  8.4  決策樹及其案例
    8.4.1  決策樹簡介
    8.4.2  決策樹的建模
    8.4.3  蘑菇類型的預測
  8.5  K近鄰演算法及其案例
    8.5.1  K近鄰演算法簡介
    8.5.2  K近鄰演算法的建模
    8.5.3  乳腺癌患者的分類
  8.6  支持向量機及其案例
    8.6.1  支持向量機簡介
    8.6.2  支持向量機的建模
    8.6.3  乳腺癌患者的分類
  8.7  小結與課後練習
第9章  無監督式機器學習
  9.1  聚類分析及其案例
    9.1.1  K均值聚類演算法及案例
    9.1.2  使用手肘法判斷聚類數
    9.1.3  輪廓係數法判斷聚類數
  9.2  因子分析及其案例
    9.2.1  因子分析概述
    9.2.2  因子分析的建模
    9.2.3  地區競爭力的因子分析
  9.3  主成分分析及其案例
    9.3.1  主成分分析概述
    9.3.2  主成分分析的建模
    9.3.3  乳腺癌患者的主成分分析
  9.4  關聯分析及其案例
    9.4.1  關聯分析概述
    9.4.2  關聯分析的建模
    9.4.3  電商商品購物籃分析
  9.5  離群點檢測及其案例
    9.5.1  離群點檢測概述
    9.5.2  橢圓模型擬合及案例
    9.5.3  局部離群因子及案例
  9.6  雙聚類分析及其案例
    9.6.1  雙聚類分析概述
    9.6.2  聯合譜聚類及案例
    9.6.3  譜雙聚類及案例
  9.7  小結與課後練習
第10章  模型評估與調優
  10.1  機器學習的挑戰
    10.1.1  訓練樣本的大小
    10.1.2  數據的不平衡
    10.1.3  異常值的處理
    10.1.4  模型的過擬合
    10.1.5  特徵的選擇
  10.2  模型的評估方法

    10.2.1  混淆矩陣及案例
    10.2.2  模型評估指標及案例
    10.2.3  ROC曲線及案例
    10.2.4  AUC及案例
    10.2.5  R平方及案例
    10.2.6  殘差及案例
  10.3  模型的調優方法
    10.3.1  交叉驗證及案例
    10.3.2  網格搜索及案例
    10.3.3  隨機搜索及案例
  10.4  小結與課後練習
第11章  Python中文文本分析
  11.1  中文結巴分詞
    11.1.1  文本分詞模式
    11.1.2  自定義停用詞
  11.2  中文關鍵詞提取
    11.2.1  TF-IDF演算法
    11.2.2  TextRank演算法
  11.3  中文詞向量生成
    11.3.1  訓練詞向量模型
    11.3.2  計算文本詞向量
  11.4  中文情感分析
    11.4.1  文本情感建模
    11.4.2  文本情感預測
  11.5  小結與課後練習
附錄A  Python 3.10.0及第三方庫安裝
附錄B  Python常用第三方工具包簡介
  B.1  數據分析類包
  B.2  數據可視化類包
  B.3  機器學習類包

同類熱銷排行榜

最近瀏覽的商品

零基礎入門Python數據分析與機器學習