幫助中心 | 我的帳號 | 關於我們

數據分析原理與實踐(基於經典演算法及Python編程實現)/啟迪數字學院系列叢書

  • 作者:編者:朝樂門|責編:王斌//胡靜
  • 出版社:機械工業
  • ISBN:9787111710820
  • 出版日期:2022/08/01
  • 裝幀:平裝
  • 頁數:263
人民幣:RMB 89.9 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書主要採用理論學習與實踐操作並重、上層應用與底層原理相結合的方式講解數據分析師需要掌握的數據分析基礎知識,包括基礎理論、關聯規則分析、回歸分析、分類分析、聚類分析、集成學習、自然語言處理、圖像處理和深度學習。每章內容從7個方面展開講解:包括應用場景、演算法原理、核心術語、Python編程實踐、重點與難點解讀、習題和主要參考文獻及推薦閱讀書目。
    本書在編寫過程中不僅充分借鑒了國內外著名大學設立的相關課程、專家學者的代表性成果,以及近幾年的熱門暢銷書,而且也考慮到了國內相關課程的教學以及相關從業人員自學的需求。
    本書可以滿足數據科學與大數據技術、大數據管理與應用、電腦科學與技術、管理工程、工商管理、數據統計、數據分析、信息管理與信息系統、商業分析等多個專業的教師、學生的教學和學習需要,也適合廣大從事數據分析工作的人員學習參考。

作者介紹
編者:朝樂門|責編:王斌//胡靜
    朝樂門,1979年生,中國人民大學數據工程與知識工程教育部重點實驗室、信息資源管理學院副教授,博士生導師;章魚大數據首席數據科學家:中國電腦學會信息系統專委員會委員、ACM高級會員、國際知識管理協會正式委員、全國高校大數據教育聯盟大數據教材專家指導委員會委員;獲得北京市中青年骨幹教師稱號、國際知識管理與智力資本傑出成就獎、Emerald/EFMD國際傑出博士論文獎、國家自然科學基金項目優秀項目、中國大數據學術創新獎和中國大數據創新百人等多種獎勵30余項。朝樂門是我國第一部系統闡述數據科學理念、理論、方法、技術和工具的重要專著——《數據科學》(清華大學出版社,2016)的作者。

目錄
第1章  數據分析概述
  1.1  數據分析的基本類型
  1.2  數據分析與機器學習
    1.2.1  統計學與機器學習
    1.2.2  機器學習演算法的類型
    1.2.3  機器學習中的演算法、模型、參數和超參數
    1.2.4  數據分析中的基礎演算法
    1.2.5  數據分析中的高級演算法
  1.3  數據分析的主要流程
  1.4  數據分析中的演算法選擇
  1.5  數據分析中常用的Python包
    1.5.1  NumPy
    1.5.2  Pandas
    1.5.3  Matplotlib
    1.5.4  Seaborn
    1.5.5  statsmodels
    1.5.6  scikit?learn
    1.5.7  jieba
    1.5.8  OpenCV
    1.5.9  TensorFlow和PyTorch
  1.6  數據分析的注意事項
  1.7  數據分析的現狀與趨勢
  1.8  習題
  1.9  主要參考文獻及推薦閱讀書目
第2章  關聯規則分析
  2.1  應用場景
  2.2  演算法原理
    2.2.1  Apriori演算法的假設
    2.2.2  Apriori演算法的流程
  2.3  核心術語
    2.3.1  事務型數據
    2.3.2  項集
    2.3.3  支持度
    2.3.4  置信度
    2.3.5  提升度
    2.3.6  關聯規則
  2.4  Python編程實踐——購物車分析
    2.4.1  業務理解
    2.4.2  數據讀入
    2.4.3  數據理解
    2.4.4  數據預處理
    2.4.5  生成頻繁項集
    2.4.6  計算關聯度
    2.4.7  可視化
  2.5  重點與難點解讀
  2.6  習題
  2.7  主要參考文獻及推薦閱讀書目
第3章  回歸分析
  3.1  應用場景
  3.2  演算法原理

    3.2.1  基本思路
    3.2.2  評價方法
  3.3  核心術語
    3.3.1  回歸分析中常用的統計量
    3.3.2  特徵矩陣與目標向量
    3.3.3  過擬合與欠擬合
    3.3.4  高杠桿點、離群點和強影響點
  3.4  Python編程實踐
    3.4.1  線性回歸——女性身高與體重數據分析
    3.4.2  多元回歸——廣告收入數據分析
    3.4.3  泊松回歸——航班數據分析
  3.5  重點與難點解讀
    3.5.1  參數解讀——線性回歸演算法
    3.5.2  Z?Score標準化
    3.5.3  方差
    3.5.4  相關係數
    3.5.5  泊松分佈
    3.5.6  L1和L2正則化
    3.5.7  閔氏距離、歐氏距離、曼哈頓距離和切比雪夫距離
  3.6  習題
  3.7  主要參考文獻及推薦閱讀書目
第4章  分類分析
  4.1  應用場景
  4.2  演算法原理
    4.1.1  KNN
    4.1.2  貝葉斯分類
    4.1.3  支持向量機
    4.1.4  邏輯回歸
  4.3  核心術語
    4.3.1  偏差和方差之間的權衡
    4.3.2  學習曲線
    4.3.3  混淆矩陣
    4.3.4  ROC曲線與AUC面積
    4.3.5  貝葉斯理論
    4.3.6  核函數及核技巧
  4.4  Python編程實踐——病例自動診斷分析
    4.4.1  使用KNN演算法實現
    4.4.2  使用貝葉斯分類演算法實現
    4.4.3  使用SVM演算法實現
    4.4.4  使用邏輯回歸演算法實現
  4.5  重點與難點解讀
    4.5.1  參數解讀——KNN、貝葉斯分類、SVM和邏輯回歸演算法
    4.5.2  數據標準化處理
    4.5.3  混淆矩陣及分類演算法的評價指標
    4.5.4  最大似然估計
    4.5.5  判別模型與生成模型
    4.5.6  類別不平衡問題
    4.5.7  KD Tree與Ball Tree
    4.5.8  GridSearchCV及其原理
    4.5.9  GaussianNB、MultinomialNB和BernoulliNB的區別

    4.5.10  LabelEncoder及其原理
  4.6  習題
  4.7  主要參考文獻及推薦閱讀書目
第5章  聚類分析
  5.1  應用場景
  5.2  演算法原理
    5.2.1  k?means演算法
    5.2.2  聚類效果的評價
  5.3  核心術語
  5.4  Python編程實踐——蛋白質消費特徵分析
    5.4.1  業務理解
    5.4.2  數據讀入
    5.4.3  數據理解
    5.4.4  數據準備
    5.4.5  模型訓練
    5.4.6  模型評價
    5.4.7  模型調參
    5.4.8  模型預測
  5.5  重點與難點解讀
    5.5.1  參數解讀——k?means演算法
    5.5.2  k?means++方法
    5.5.3  elkan方法
  5.6  習題
  5.7  主要參考文獻及推薦閱讀書目
第6章  集成學習
  6.1  應用場景
  6.2  演算法原理
    6.2.1  隨機森林
    6.2.2  XGBoost
  6.3  核心術語
  6.4  Python編程實踐——房屋價格預測分析
    6.4.1  使用隨機森林演算法實現
    6.4.2  使用XGBoost實現
  6.5  重點與難點解讀
    6.5.1  參數解讀——隨機森林和XGBoost
    6.5.2  純度最大化
    6.5.3  數據標準化
    6.5.4  泰勒展開式
    6.5.5  集成學習中幾個注意事項
  6.6  習題
  6.7  主要參考文獻及推薦閱讀書目
第7章  自然語言處理
  7.1  應用場景
  7.2  演算法原理
    7.2.1  中文分詞
    7.2.2  詞袋模型
    7.2.3  N?grams模型
    7.2.4  TF?IDF演算法
    7.2.5  文本規範化
    7.2.6  詞性標注

  7.3  核心術語
  7.4  Python編程實踐——2021年政府工作報告分析
    7.4.1  業務理解
    7.4.2  數據讀入
    7.4.3  分詞處理
    7.4.4  添加自定義辭彙
    7.4.5  詞性標注
    7.4.6  停用詞處理
    7.4.7  詞性分佈分析
    7.4.8  高頻詞分析
    7.4.9  關鍵詞抽取
    7.4.10  繪製詞雲圖
  7.5  重點與難點解讀
    7.5.1  NLTK的詞性標注
    7.5.2  NLTK的功能模塊
  7.6  習題
  7.7  主要參考文獻及推薦閱讀書目
第8章  圖像處理
  8.1  應用場景
  8.2  演算法原理
    8.2.1  建模階段
    8.2.2  檢測階段
  8.3  核心術語
  8.4  Python編程實踐——人臉檢測分析
    8.4.1  安裝並導入OpenCV?python包
    8.4.2  讀取圖像文件
    8.4.3  將RGB圖像轉換為灰度圖
    8.4.4  人臉檢測與矩陣標識
    8.4.5  圖像顯示
    8.4.6  圖像保存
  8.5  重點與難點解讀
    8.5.1  參數解讀——OpenCV
    8.5.2  AdaBoost演算法
    8.5.3  基於OpenCV和CNN的圖像處理的對比
    8.5.4  Haar特徵和LBP特徵的對比分析
    8.5.5  AdaBoost演算法和XGboost演算法的主要區別
  8.6  習題
  8.7  主要參考文獻及推薦閱讀書目
第9章  深度學習
  9.1  應用場景
  9.2  演算法原理
    9.2.1  全連接神經網路及其缺點
    9.2.2  全連接神經網路的改進及卷積神經網路的提出
    9.2.3  卷積神經網路的基本思路
    9.2.4  CNN的整體流程
  9.3  核心術語
  9.4  Python編程實踐——手寫數字識別分析
    9.4.1  業務理解
    9.4.2  數據讀入及理解
    9.4.3  數據準備

    9.4.4  數據理解
    9.4.5  定義CNN的學習框架
    9.4.6  執行CNN學習及模型訓練
    9.4.7  模型評價
    9.4.8  模型預測
  9.5  重點與難點解讀
    9.5.1  參數解讀——CNN演算法
    9.5.2  機器學習中的性能與可解釋性的矛盾
    9.5.3  隨機梯度下降及學習率
    9.5.4  One?hot encoding
    9.5.5  端到端的學習
    9.5.6  CNN與其他深度學習方法的區別及聯繫
    9.5.7  CNN演算法設置超參數的經驗法則
  9.6  習題
  9.7  主要參考文獻及推薦閱讀書目
附錄  習題參考答案

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032