幫助中心 | 我的帳號 | 關於我們

大數據採集與預處理技術(普通高等院校數據科學與大數據技術專業十三五規劃教材)

  • 作者:編者:劉麗敏//廖志芳//周筠|責編:韓雪
  • 出版社:中南大學
  • ISBN:9787548734116
  • 出版日期:2018/12/01
  • 裝幀:平裝
  • 頁數:176
人民幣:RMB 42 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書以大數據關鍵技術為主線,重點介紹了大數據採集技術和數據預處理技術。本書共7章。第1章為大數據概述,重點闡述了大數據的概念、大數據關鍵技術以及大數據採集和數據預處理的重要性,並對本書內容進行了概述;第2章在闡述傳統數據採集相關技術基礎上,從數據發展出發,剖析了大數據採集的特點和相關技術;第3章介紹了常用的大數據採集架構;第4章介紹了針對系統數據來源複雜、數據量大的企業數據的大數據遷移技術;第5章介紹了互聯網數據抓取與處理技術;第6章介紹了數據預處理技術,包括數據清洗、數據集成、數據變換和數據歸約等技術;第7章首先闡述了Hadoop相關理論基礎,然後以淘寶網數據為例,介紹了大數據從數據採集、數據預處理、數據分析以及數據可視化的綜合應用實例。本書可作為高等院校大數據相關專業的教學用書,也可以作為從事大數據相關工作的工程技術人員的參考用書。

作者介紹
編者:劉麗敏//廖志芳//周筠|責編:韓雪

目錄
第1章  大數據概述
  1.1  大數據的概念
  1.2  大數據關鍵技術
  1.3  大數據採集與數據預處理技術
    1.3.1  大數據採集技術
    1.3.2  數據預處理技術
  1.4  小結
  習題
第2章  數據採集基礎
  2.1  傳統數據採集技術
    2.1.1  數據採集概述
    2.1.2  數據採集系統架構
    2.1.3  數據採集關鍵技術
  2.2  大數據採集基礎
    2.2.1  數據的發展
    2.2.2  大數據來源
    2.2.3  大數據採集技術
  2.3  小結
  習題
第3章  大數據採集架構
  3.1  概述
  3.2  chukwa數據採集
  3.3  Flume數據採集
  3.4  scribe數據採集
  3.5  Kafka數據採集
  3.6  小結
  習題
第4章  大數據遷移技術
  4.1  數據遷移概念
  4.2  數據遷移相關技術
    4.2.1  基於主機的遷移方式
    4.2.2  基於存儲的遷移方式
    4.2.3  備份恢復的方式
    4.2.4  基於主機邏輯卷的數據遷
    4.2.5  基於資料庫的遷移技術
    4.2.6  伺服器虛擬化的遷移
    4.2.7  其他數據遷移技術
  4.3  數據遷移工具
    4.3.1  Apache Sqoop
    4.3.2  ETL
  4.4  Kettle數據遷移實例
  4.5  小結
  習題
第5章  互聯網數據抓取與處理技術
  5.1  網路爬蟲概述
    5.1.1  網路爬蟲的概念
    5.1.2  網路爬蟲的抓取策略
    5.1.3  網頁更新策略
  5.2  常用網路爬蟲方法
    5.2.1  批量型爬蟲

    5.2.2  增量型爬蟲
    5.2.3  垂直型爬蟲
    5.2.4  通用網路爬蟲
    5.2.5  聚焦網路爬蟲
    5.2.6  深層網路爬蟲
    5.2.7  分散式網路爬蟲
  5.3  網路爬蟲工具
    5.3.1  Googlebot
    5.3.2  百度蜘蛛
    5.3.3  Apache Nutch
    5.3.4  火車採集器
    5.3.5  集搜客
    5.3.6  八爪魚採集器
  5.4  Python爬蟲技術
    5.4.1  Python概述
    5.4.2  Python爬蟲基礎
    5.4.3  Python安裝
    5.4.4  Python爬蟲實例
  5.5  文本數據處理
    5.5.1  文本分詞概速
    5.5.2  中文分詞演算法
    5.5.3  MMSEG分詞演算法
    5.5.4  常用中文分詞工具
    5.5.5  網頁分析演算法
  5.6  小結
  習題
第6章  數據預處理技術
  6.1  數據的描述
    6.1.1  數據對象與屬性類型
    6.1.2  數據的統計描述
    6.1.3  數據相似性和相異性的度量方法
  6.2  數據預處理概述
    6.2.1  數據質量
    6.2.2  數據預處理的主要任務
  6.3  數據清洗
    6.3.1  缺失值處理
    6.3.2  光滑雜訊數據處理
    6.3.3  檢測偏差與糾正偏差
  6.4  數據集成
    6.4.1  模式識別和對象匹配
    6.4.2  冗余問題
    6.4.3  元組重複
    6.4.4  數據值衝突的檢測與處理
  6.5  數據歸約
    6.5.1  小波變換
    6.5.2  主成分分析
    6.5.3  屬性子集選擇
    6.5.4  回歸和對數線性模型
    6.5.5  直方圖
    6.5.6  聚類

    6.5.7  抽樣
    6.5.8  數據立方體聚集
  6.6  數據變換
    6.6.1  通過規範化變換數據
    6.6.2  通過離散化變換數據
    6.6.3  標稱數據的概念分層變換
  6.7  小結
  習題
第7章  大數據分析實例
  7.1  Hadoop相關理論知識
    7.1.1  Hadoop生態系統
    7.1.2  HDFS
    7.1.3  MapReduce
    7.1.4  HBase
    7.1.5  Hive
    7.1.6  Yarn
    7.1.7  ZooKeeper和Sqoop
  7.2  實驗內容
    7.2.1  技術方案與實驗環境
    7.2.2  實驗環境搭建
    7.2.3  實驗過程
    7 3小結
  習題
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032