幫助中心 | 我的帳號 | 關於我們

數據採集與預處理(微課版)/大數據創新人才培養系列

  • 作者:編者:安俊秀//徐傳運//戴宇睿|責編:孫澍
  • 出版社:人民郵電
  • ISBN:9787115589903
  • 出版日期:2024/05/01
  • 裝幀:平裝
  • 頁數:175
人民幣:RMB 49.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書詳細介紹大數據領域數據採集與預處理的相關理論和技術,全面講解數據採集與預處理的流程及其在多個領域的應用。本書共8章,包括數據採集與預處理概述、數據採集與存儲、數據採集進階、數據清洗、數據規整與分組聚合、豆瓣電影排行榜數據抓取與預處理、使用Scrapy框架與Selenium採集股市每日點評數據並可視化、房產數據預處理。
    本書可作為高等院校大數據、人工智慧、電腦等專業的教材,也可供相關從業人員參考。

作者介紹
編者:安俊秀//徐傳運//戴宇睿|責編:孫澍

目錄
第1章  數據採集與預處理概述
  1.1  數據採集簡介
    1.1.1  數據採集工具
    1.1.2  爬蟲的原理與分類
    1.1.3  網路爬蟲實現的核心流程
    1.1.4  爬蟲的應用場景
  1.2  數據預處理簡介
    1.2.1  數據預處理的目的與意義
    1.2.2  數據預處理技術
    1.2.3  數據預處理工具
  1.3  Python中關於數據採集與預處理的常用庫
    1.3.1  請求庫
    1.3.2  解析庫
    1.3.3  數據存儲庫
    1.3.4  處理庫
  習題
第2章  數據採集與存儲
  2.1  數據格式與操縱
    2.1.1  數據格式介紹
    2.1.2  JSON格式的數據
    2.1.3  CSV格式的數據
  2.2  網頁抓取:爬蟲基礎
    2.2.1  HTTP基本原理
    2.2.2  網頁的基本元素
    2.2.3  urllib庫
    2.2.4  使用requests庫請求網站
    2.2.5  使用正則表達式提取數據
    2.2.6  代理的使用
    2.2.7  使用Cookie登錄
  2.3  解析庫的使用
    2.3.1  使用BeautifulSoup解析網頁
    2.3.2  使用XPath處理HTML
  2.4  數據存儲
    2.4.1  將數據存儲為JSON格式
    2.4.2  將數據存儲為CSV格式
    2.4.3  將數據存儲到MySQL資料庫中
第3章  數據採集進階
  3.1  AJAX數據的抓取
    3.1.1  什麼是AJAX
    3.1.2  為什麼要學習AJAX
    3.1.3  怎樣抓取AJAX數據
  3.2  使用Selenium抓取動態渲染頁面
    3.2.1  Selenium的基本介紹與安裝方法
    3.2.2  Selenium的簡單應用
    3.2.3  Selenium的應用實例
    3.2.4  Selenium的高級操作
  3.3  爬蟲框架
    3.3.1  爬蟲框架介紹
    3.3.2  爬蟲框架機制
  3.4  Scrapy框架

    3.4.1  Scrapy簡介與安裝方法
    3.4.2  Scrapy的應用
    3.4.3  創建工程項目和Spider模板
    3.4.4  編寫Spider
    3.4.5  編寫Item Pipeline
    3.4.6  優化配置策略
  習題
第4章  數據清洗
  4.1  數據清洗概述
  4.2  處理缺失值
    4.2.1  數據缺失的原因
    4.2.2  缺失值的主要處理方法
  4.3  處理重複值和異常值
    4.3.1  刪除重複值
    4.3.2  檢測異常值
    4.3.3  過濾異常值
  4.4  數據轉換
    4.4.1  數據類型轉換
    4.4.2  用函數或映射進行數據轉換
    4.4.3  重命名軸索引
    4.4.4  連續數據離散化
    4.4.5  啞變數處理
    4.4.6  數據標準化
  習題
第5章  數據規整與分組聚合
  5.1  數據規整
    5.1.1  數據聯合與合併
    5.1.2  分層索引
    5.1.3  數據重塑
  5.2  數據分組
    5.2.1  創建分組數據
    5.2.2  運用groupby()函數分組
  5.3  數據聚合
    5.3.1  groupby對象中預置的聚合函數
    5.3.2  agg()函數與transform()函數
    5.3.3  apply()函數的應用
  習題
第6章  豆瓣電影排行榜數據抓取與預處理
  6.1  豆瓣電影排行榜數據採集目標
  6.2  豆瓣網頁結構分析
    6.2.1  宏觀整體頁面分析
    6.2.2  微觀具體信息抓取
  6.3  創建爬蟲
    6.3.1  準備URL
    6.3.2  請求及響應
    6.3.3  提取數據
    6.3.4  保存數據
  6.4  數據預處理
  6.5  數據可視化
  習題

第7章  使用Scrapy框架與Selenium採集股市每日點評數據並可視化
  7.1  採集目標和準備工作
  7.2  大盤每日點評網頁結構分析
  7.3  使用Scrapy框架與Selenium抓取信息
    7.3.1  編寫item.py與spider.py
    7.3.2  編寫middlewares.py
    7.3.3  編寫pipelines.py
    7.3.4  設置settings.py
    7.3.5  運行結果
  7.4  數據預處理與可視化
    7.4.1  數據預處理
    7.4.2  數據可視化
  習題
第8章  房產數據預處理
  8.1  研究背景和目標分析
  8.2  數據描述與探索
  8.3  數據預處理
    8.3.1  屬性歸約
    8.3.2  缺失值處理
    8.3.3  異常值處理
    8.3.4  數據變換
    8.3.5  保存數據
  習題
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032