幫助中心 | 我的帳號 | 關於我們

樣本數據處理/數據科學與大數據系列

  • 作者:編者:許桂秋//朱婷婷//李春平|責編:孟宇
  • 出版社:電子工業
  • ISBN:9787121435737
  • 出版日期:2022/06/01
  • 裝幀:平裝
  • 頁數:322
人民幣:RMB 69.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書從實用的角度出發,採用理論與實踐相結合的方式,介紹樣本數據處理的基礎知識,力求培養讀者使用Python語言及Kettle軟體進行數據處理的能力。全書內容分別為數據預處理概述、Kettle工具的初步使用、數據的導入與導出、數據清洗、數據標注、Kettle作業設計、基於Kettle構建數據倉庫、基於Python的數據導入與導出、基於Python的數據整理。
    本書作為人工智慧學科相關的樣本數據處理技術的入門教材,目的不是覆蓋樣本數據處理技術的所有知識點,而是介紹樣本數據處理的主要應用,使讀者了解樣本數據處理的基本構成,以及如何應對不同數據類型的數據預處理工作。為了增強實踐效果,書中引入了多個基礎技術案例及綜合實踐案例,以幫助讀者了解樣本數據處理涉及的基本技術的知識和技能。
    本書可作為高等院校數據科學與大數據技術、電腦、信息管理等相關專業課程的教材,也可供對樣本數據處理技術感興趣的讀者閱讀。

作者介紹
編者:許桂秋//朱婷婷//李春平|責編:孟宇

目錄
第1章  數據預處理概述
  1.1  數據預處理的背景與目的
    1.1.1  數據預處理的背景:數據質量
    1.1.2  數據預處理的目的
  1.2  數據預處理的流程
    1.2.1  數據清洗
    1.2.2  數據集成
    1.2.3  數據變換
    1.2.4  數據歸約
    1.2.5  數據預處理的注意事項
  1.3  數據預處理的工具
  本章習題
第2章  Kettle工具的初步使用
  2.1  Kettle的安裝
    2.1.1  Java的安裝
    2.1.2  Kettle的下載安裝與Spoon的啟動
  2.2  Kettle的使用
    2.2.1  轉換的基本概念
    2.2.2  第一個轉換案例
  本章習題
第3章  數據的導入與導出
  3.1  基於文件的數據導入與導出
    3.1.1  文本文件的導入與導出
    3.1.2  文本文件的導入與導出案例
    3.1.3  Excel文件的導入與導出
    3.1.4  Excel文件的導入與導出案例
    3.1.5  XML文件的導入與導出
    3.1.6  XML文件的導入與導出案例
    3.1.7  JSON文件的導入與導出
    3.1.8  JSON文件的導入與導出案例
  3.2  基於資料庫的數據導入與導出
    3.2.1  關係資料庫的數據導入與導出
    3.2.2  MySQL資料庫的數據導入與導出案例
  3.3  基於Web的數據導入與導出
    3.3.1  HTML數據的導入與導出
    3.3.2  HTML數據的導入與導出案例
    3.3.3  基於HTTPGET請求的導入與導出
    3.3.4  基於HTTPGET請求的導入與導出案例
  3.4  基於CDC變更數據的導入與導出
    3.4.1  基於源數據的CDC
    3.4.2  基於源數據的CDC案例
    3.4.3  基於觸發器的CDC
    3.4.4  基於觸發器的CDC案例
    3.4.5  基於快照的CDC
    3.4.6  基於快照的CDC案例
    3.4.7  基於日誌的CDC
    3.4.8  基於日誌的CDC案例
  本章習題
第4章  數據清洗
  4.1  數據清洗概述

    4.1.1  Kettle常用的數據清洗步驟
    4.1.2  字元串清理
    4.1.3  欄位清理
    4.1.4  使用參照表清理數據
    4.1.5  數據校驗
  4.2  數據排重
    4.2.1  如何識別重複數據
    4.2.2  去除完全重複數據
    4.2.3  去除不完全重複數據
  4.3  使用腳本組件進行數據清洗
    4.3.1  使用JavaScript代碼組件清理數據
    4.3.2  使用正則表達式組件清理數據
    4.3.3  使用其他腳本組件清理數據
  本章習題
第5章  數據標注
  5.1  數據標注簡介
    5.1.1  數據標注是什麼
    5.1.2  數據標注分類簡介
    5.1.3  數據標注流程簡介
  5.2  數據標注分類
    5.2.1  圖像標注
    5.2.2  文本標注
    5.2.3  語音標注
  5.3  數據標注質量檢驗
    5.3.1  數據標注質量的影響
    5.3.2  數據標注的質量標準
    5.3.3  數據標注質量檢驗方法
  5.4  圖像數據標注實戰
    5.4.1  車輛車牌標注
    5.4.2  遙感影像標注
    5.4.3  醫療影像標注
    5.4.4  行人數據標注
    5.4.5  基於行人標注數據集的行人檢測
  5.5  文本標注實戰
  本章習題
第6章  Kettle作業設計
  6.1  作業的概念及組成
    6.1.1  作業項
    6.1.2  跳
    6.1.3  註釋
  6.2  作業的執行方式
    6.2.1  回溯
    6.2.2  多路徑和回溯
    6.2.3  並行執行
  6.3  作業的創建及常用作業項
    6.3.1  創建作業
    6.3.2  「START」作業項
    6.3.3  「作業」作業項
    6.3.4  「轉換」作業項
  6.4  變數

    6.4.1  定義變數
    6.4.2  使用變數
  6.5  監控
    6.5.1  日誌
    6.5.2  郵件通知
  6.6  命令行啟動
  6.7  作業實驗
  本章習題
第7章  基於Kettle構建數據倉庫
  7.1  數據倉庫的介紹
    7.1.1  數據倉庫的起因
    7.1.2  數據倉庫的發展
    7.1.3  數據倉庫的定義
    7.1.4  數據倉庫的特點
    7.1.5  數據倉庫的結構
    7.1.6  數據倉庫建模
    7.1.7  數據倉庫與ETL的關係
  7.2  構建維度表
    7.2.1  管理各種鍵
    7.2.2  維度表的載入
    7.2.3  緩慢變化維度
  7.3  構建事實表
    7.3.1  批量載入
    7.3.2  查找維度
    7.3.3  事實表的處理
  本章習題
第8章  基於Python的數據導入與導出
  8.1  Pandas
    8.1.1  Series
    8.1.2  DataFrame
  8.2  文本文件的導入與導出
    8.2.1  導入CSV文件
    8.2.2  導出CSV文件
    8.2.3  JSON格式數據的導入與導出
  8.3  Excel文件的導入與導出
  8.4  資料庫的導入與導出
    8.4.1  關係資料庫的導入與導出
    8.4.2  非關係資料庫的導入與導出
  本章習題
第9章  基於Python的數據整理
  9.1  合併多個數據集
    9.1.1  使用鍵進行DataFrame合併
    9.1.2  使用index進行DataFrame合併
    9.1.3  沿著橫軸或縱軸串接
  9.2  數據重塑
    9.2.1  多級索引數據的重塑
    9.2.2  應用pivot方法重塑數據
  9.3  數據轉換
    9.3.1  移除重複數據
    9.3.2  利用函數或映射進行數據轉換

    9.3.3  值轉換
    9.3.4  重命名軸索引
    9.3.5  離散化和面元劃分
    9.3.6  檢測或過濾異常值
    9.3.7  排列和隨機採樣
    9.3.8  計算指標/啞變數
  本章習題

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032