幫助中心 | 我的帳號 | 關於我們

數據預處理從入門到實戰(基於SQL\R\Python)/圖靈程序設計叢書

  • 作者:(日)本橋智光|責編:杜曉靜|譯者:陳濤
  • 出版社:人民郵電
  • ISBN:9787115552327
  • 出版日期:2021/02/01
  • 裝幀:平裝
  • 頁數:253
人民幣:RMB 89 元      售價:
放入購物車
加入收藏夾

內容大鋼
    在大數據、人工智慧時代,數據分析必不可少。本書以數據分析中至關重要的數據預處理為主題,通過54道例題具體介紹了基於SQL、R、Python的處理方法和相關技巧。全書共4個部分:第1部分介紹預處理的基礎知識;第2部分介紹以數據結構為對象的預處理,包括數據提取、數據聚合、數據連接、數據拆分、數據生成和數據擴展;第3部分介紹以數據內容為對象的預處理,涉及數值型、分類型、日期時間型、字元型和位置信息型;第4部分為預處理實戰,介紹與實際業務相同的預處理流程。
    本書適合新手數據科學家、系統工程師、具備編程及數理基礎的技術人才,以及對數據挖掘和數據分析等感興趣的人閱讀。

作者介紹
(日)本橋智光|責編:杜曉靜|譯者:陳濤

目錄
第1部分  預處理入門
  第1章  什麼是預處理
    1-1  數據
      記錄數據
      數據類型
    1-2  預處理的作用
      機器學習
      無監督學習和有監督學習
      用於數據分析的3種預處理
    1-3  預處理的流程
      對數據結構的預處理
      對數據內容的預處理
      預處理的步驟
    1-43  種編程語言
      正確使用編程語言
    1-5  包和庫
      用於數據分析的包和庫
    1-6  數據集
      酒店預訂記錄
      工廠產品記錄
      月度指標記錄
      文本數據集
    1-7  讀取數據
第2部分  對數據結構的預處理
  第2章  數據提取
    2-1  提取指定的列
      Q  提取列
    2-2  按指定條件提取
      Q  按條件提取數據行
      Q  間接利用索引提取數據行
    2-3  不基於數據值的採樣
      Q  隨機採樣
    2-4  基於聚合ID的採樣
      Q  按ID採樣
  第3章  數據聚合
    3-1  計算數據條數和類型數
      Q  計數和唯一值計數
    3-2  計算合計值
      Q  合計值
    3-3  計算最值、代表值
      Q  代表值
    3-4  計算離散程度
      Q  方差和標準差
    3-5  計算眾數
      Q  眾數
    3-6  排序
      排序函數
      Q  為時序數據添加編號
      Q  排序
  第4章  數據連接

    4-1  主表的連接
      Q  主表的連接
    4-2  切換按條件連接的表
      Q  切換按條件連接的主表
    4-3  連接歷史數據
      Q  獲取往前數第n條記錄的數據
      Q  前n條記錄的合計值
      Q  前n條記錄的平均值
      Q  過去n天的合計值
    4-4  交叉連接
      Q  交叉連接處理
  第5章  數據拆分
    5-1  記錄數據中模型驗證數據的拆分
      Q  交叉驗證
    5-2  時序數據中模型驗證數據的拆分
      Q  準備時序數據中的訓練數據和驗證數據
  第6章  數據生成
    6-1  通過欠採樣調整不平衡數據
    6-2  通過過採樣調整不平衡數據
      Q  過採樣
  第7章  數據擴展
    7-1  轉換為橫向顯示
      Q  轉換為橫向顯示
    7-2  轉換為稀疏矩陣
      Q  稀疏矩陣
第3部分  對數據內容的預處理
  第8章  數值型
    8-1  轉換為數值型
      Q  各種數據類型的轉換
    8-2  通過對數化實現非線性變換
      Q  對數化
    8-3  通過分類化實現非線性變換
      Q  數值型的分類化
    8-4  歸一化
      Q  歸一化
    8-5  刪除異常值
      Q  根據標準差刪除異
    8-6  用主成分分析實現降維
      Q  用主成分分析實現降維
    8-7  數值填充
      Q  刪除缺失記錄
      Q  用常數填充
      Q  均值填充
      Q  用PMM實現多重插補
  第9章  分類型
    9-1  轉換為分類型
      Q  分類型的轉換
    9-2  啞變數化
      Q  啞變數化
    9-3  分類值的聚合

      Q  分類值的聚合
    9-4  分類值的組合
      Q  分類值的組合
    9-5  分類型的數值化
      Q  分類型的數值化
    9-6  分類型的填充
      Q  用KNN填充
  第10章  日期時間型
    10-1  轉換為日期時間型、日期型
      Q  日期時間型、日期型的轉換
    10-2  轉換為年、月、日、時、分、秒、星期
      Q  獲取各日期時間元素
    10-3  轉換為日期時間差
      Q  計算日期時間差
    10-4  日期時間型的增減
      Q  日期時間的增減處理
    10-5  轉換為季節
      Q  轉換為季節
    10-6  轉換為時間段
    10-7  轉換為工作日、休息日
      Q  添加休息日標誌
  第11章  字元型
    11-1  通過形態分析進行分解
      Q  提取名詞和動詞
    11-2  轉換為單詞的集合數據
      Q  創建詞袋
    11-3  用TF-IDF調整單詞權重
      Q  創建使用TF-IDF的詞袋
  第12章  位置信息型
    12-1  從日本坐標繫到世界坐標系的轉換以及從度、分、秒到度的轉換
      Q  從日本坐標系轉換為世界坐標系
    12-2  兩點間距離、方向的計算
      Q  計算距離
第4部分  預處理實戰
  第13章  實戰練習
    13-1  聚合分析的預處理
      Q  聚合分析的準備工作
    13-2  用於推薦的預處理
      Q  生成推薦矩陣
    13-3  預測建模的預處理
      Q  用於預測建模的預處理
結語
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032