幫助中心 | 我的帳號 | 關於我們

數據採集與處理(高等職業教育人工智慧與大數據專業群人才培養系列教材)

  • 作者:編者:劉珍//章紅燕|責編:李靜
  • 出版社:電子工業
  • ISBN:9787121468841
  • 出版日期:2024/01/01
  • 裝幀:平裝
  • 頁數:242
人民幣:RMB 49.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書基於Python 3.10版本,以項目實戰的方式系統地介紹了Python網路爬蟲開發的相關知識,主要內容包括Python基礎實戰、網頁數據採集實戰、網頁數據解析實戰、併發技術實戰、動態內容採集實戰、爬蟲數據存儲實戰、Scrapy爬蟲框架實戰等,通過多個實戰任務的練習,讓讀者能最大限度地掌握Python網路爬蟲的核心技術。為了方便讀者學習,本書附有配套源代碼、教學PPT、題庫、教學視頻、教學設計等資源。
    本書可作為高等院校電腦相關專業程序設計課程教材,也可供從事電腦爬蟲應用開發的相關人員使用。

作者介紹
編者:劉珍//章紅燕|責編:李靜

目錄
項目1  Python基礎實戰
  任務1.1  Python開發環境搭建
    1.1.1  在Windows系統中安裝Python
    1.1.2  在Linux系統中安裝Python
    1.1.3  安裝PyCharm集成開發環境
  任務1.2  從HTML文檔中提取特定字元串
    1.2.1  數值類型與變數
    1.2.2  字元串
    1.2.3  運算符
    1.2.4  流程式控制制
  任務1.3  用列表、字典等組織數據
    1.3.1  列表(list)
    1.3.2  元組(tuple)
    1.3.3  字典(dict)
    1.3.4  集合(set)
    1.3.5  函數
  任務1.4  基於正則表達式提取圖片鏈接文本
    1.4.1  模塊和包
    1.4.2  異常處理
    1.4.3  正則表達式
  任務1.5  從JSON文件中載入數據
    1.5.1  類與對象
    1.5.2  文件與目錄操作
    1.5.3  JSON
項目2  網頁數據採集實戰
  任務2.1  利用工具爬取一個電商網頁
    2.1.1  爬蟲的定義
    2.1.2  爬蟲的類型
    2.1.3  與爬蟲相關的網站文件
    2.1.4  反爬蟲應對策略
    2.1.5  爬蟲的合法性
  任務2.2  基於urllib庫爬取一個電商網頁
  任務2.3  urllib處理髮送GET/POST請求
  任務2.4  請求頭偽裝與代理伺服器應用
    2.4.1  請求頭偽裝
    2.4.2  代理伺服器
  任務2.5  網路異常處理
    2.5.1  URLError
    2.5.2  HTTPError
  任務2.6  基於requests庫爬取電商網頁
項目3  網頁數據解析實戰
  任務3.1  HTML基礎
    3.1.1  HTML網頁的結構
    3.1.2  Chrome瀏覽器的DevTools
  任務3.2  基於正則表達式的網頁數據解析
  任務3.3  XPath應用
    3.3.1  XPath簡介
    3.3.2  lxml簡介
  任務3.4  Beautiful Soup解析數據
  任務3.5  JSON數據解析

項目4  併發技術實戰
  任務4.1  基於進程的併發爬蟲
    4.1.1  併發原理
    4.1.2  進程(Process)
    4.1.3  Python的多進程併發編程
  任務4.2  基於queue模塊的多線程爬蟲
    4.2.1  線程(Thread)
    4.2.2  Python的多線程併發編程
  任務4.3  基於協程的併發爬蟲
  任務4.4  歷史天氣併發爬取
項目5  動態內容採集實戰
  任務5.1  動態網頁基礎
  任務5.2  Selenium的安裝配置
  任務5.3  基於Selenium的動態網頁爬取
  任務5.4  基於Selenium的模擬登錄
  任務5.5  驗證碼的識別處理
    5.5.1  驗證碼基礎
    5.5.2  Pytesseract簡介
    5.5.3  PIL簡介
  任務5.6  基於Selenium的招聘職位獲取
項目6  爬蟲數據存儲實戰
  任務6.1  MongoDB基礎
    6.1.1  MongoDB的安裝
    6.1.2  MongoDB的基本操作
  任務6.2  基於PyMongo的爬蟲數據存儲
  任務6.3  Redis資料庫基礎
    6.3.1  Redis的安裝
    6.3.2  Redis的操作命令
  任務6.4  基於redis模塊的爬蟲數據存儲
項目7  Scrapy爬蟲框架實戰
  任務7.1  Scrapy爬蟲框架基礎
    7.1.1  Scrapy爬蟲框架簡介
    7.1.2  Scrapy項目創建
    7.1.3  Scrapy常用命令
  任務7.2  定義Spider爬取鬥魚直播平台數據
    7.2.1  Item類簡介
    7.2.2  Spider類簡介
  任務7.3  自定義爬蟲中間件爬取眾圖網數據
    7.3.1  Scrapy的settings文件
    7.3.2  Downloader Middlewares
  任務7.4  CrawlSpider自動爬取數據
    7.4.1  CrawlSpider
    7.4.2  Rule
    7.4.3  LinkExtractor
  任務7.5  應用Item Pipeline進行後期數據處理
  任務7.6  綜合實訓——百度科學百科數據爬取

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032