幫助中心 | 我的帳號 | 關於我們

大數據採集與預處理(大數據技術微課版工業和信息化精品系列教材)

  • 作者:編者:宋磊//陳天真//崔敏|責編:趙亮
  • 出版社:人民郵電
  • ISBN:9787115639158
  • 出版日期:2024/07/01
  • 裝幀:平裝
  • 頁數:208
人民幣:RMB 56 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書按照大數據採集與預處理的實現流程,由淺入深地講解大數據採集與預處理的相關技術,以及如何使用不同方式對大數據進行採集與預處理。本書內容系統、全面,可幫助開發人員快速實現大量數據的採集。
    本書主要內容包括大數據採集與預處理簡介、PyCharm的安裝與使用、Urllib庫數據採集、Requests庫數據採集、XPath和Beautiful Soup庫數據解析、Scrapy框架數據採集與存儲、Flume和Kafka日誌數據採集以及使用Pandas、Pig、ELK進行數據預處理等。
    本書既可作為高職高專院校大數據、人工智慧相關專業的教材,也可作為相關技術人員的參考書。

作者介紹
編者:宋磊//陳天真//崔敏|責編:趙亮

目錄
項目1  初識動態網頁數據採集與預處理
  項目導言
  思維導圖
  知識目標
  技能目標
  素養目標
  任務1-1  認識數據採集與預處理
    任務描述
    素質拓展
    任務技能
      技能點1  認識大數據來源
      技能點2  認識數據採集
      技能點3  認識數據預處理
  任務1-2  搭建數據採集與預處理開發環境
    任務描述
    素質拓展
    任務技能
      技能點1  認識PyCharm
      技能點2  下載及安裝PyCharm
      技能點3  使用PyCharm
    任務實施
  項目小結
  課後習題
  自我評價
項目2  動態網頁數據採集
  項目導言
  思維導圖
  知識目標
  技能目標
  素養目標
  任務2-1  使用Urllib庫完成「新聞動態」網頁數據採集
    任務描述
    素質拓展
    任務技能
      技能點1  request模塊
      技能點2  error模塊
      技能點3  parse模塊
    任務實施
  任務2-2  使用Requests庫完成「浪潮雲說」網頁數據採集
    任務描述
    素質拓展
    任務技能
      技能點1  Requests庫的簡介及安裝
      技能點2  Requests庫的基本使用方法
      技能點3  Requests庫的高級使用方法
    任務實施
  項目小結
  課後習題
  自我評價
項目3  動態網頁數據解析

  項目導言
  思維導圖
  知識目標
  技能目標
  素養目標
  任務3-1  使用XPath解析「新聞動態」網頁數據
    任務描述
    素質拓展
    任務技能
      技能點1  XPath的簡介
      技能點2  定位
      技能點3  數據提取
    任務實施
  任務3-2  使用Beautiful Soup解析「浪潮雲說」網頁數據
    任務描述
    素質拓展
    任務技能
      技能點1  Beautiful Soup的安裝
      技能點2  Beautiful Soup的使用
    任務實施
  項目小結
  課後習題
  自我評價
項目4  基於Scrapy實現動態網頁數據採集與存儲
  項目導言
  思維導圖
  知識目標
  技能目標
  素養目標
  任務4-1  使用Scrapy框架完成新聞公告頁面數據採集與存儲
    任務描述
    素質拓展
    任務技能
      技能點1  Scrapy的簡介及安裝
      技能點2  Scrapy的操作指令
      技能點3  段定義及Scrapy設置
      技能點4  文本解析
      技能點5  內容存儲
    任務實施
  項目小結
  課後習題
  自我評價
項目5  動態網頁訪問日誌數據採集
  項目導言
  思維導圖
  知識目標
  技能目標
  素養目標
  任務5-1  使用Flume採集某官網訪問日誌數據
    任務描述

    素質拓展
    任務技能
      技能點1  Flume的簡介
      技能點2  Flume數據採集配置
      技能點3  Flume的啟動方法
      技能點4  Flume攔截器配置
    任務實施
  任務5-2  使用Kafka消費Flume中某官網訪問日誌數據
    任務描述
    素質拓展
    任務技能
      技能點1  Kafka的簡介
      技能點2  Kafka的配置
      技能點3  Kafka腳本操作
      技能點4  Kafka Python API
    任務實施
  項目小結
  課後習題
  自我評價
項目6  動態網頁數據預處理
  項目導言
  思維導圖
  知識目標
  技能目標
  素養目標
  任務6-1  使用Pandas實現新聞動態網頁數據預處理
    任務描述
    素質拓展
    任務技能
      技能點1  Pandas的簡介
      技能點2  Pandas的數據結構
      技能點3  Pandas的基本功能
      技能點4  匯總和描述統計
      技能點5  處理缺失數據
    任務實施
  任務6-2  使用Pig實現「浪潮雲說」網頁數據預處理
    任務描述
    素質拓展
    任務技能
      技能點1  Pig的簡介
      技能點2  Pig配置運行
      技能點3  Pig Latin執行
      技能點4  運算符
      技能點5  內置函數
    任務實施
  任務6-3  使用ELK實現某官網日誌數據預處理
    任務描述
    素質拓展
    任務技能
      技能點1  Elasticsearch

      技能點2  Logstash
      技能點3  Kibana
    任務實施
  項目小結
  課後習題
  自我評價

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032