幫助中心 | 我的帳號 | 關於我們

Python網路爬蟲基礎教程(第2版工業和信息化精品系列教材)

  • 作者:編者:張治元|責編:范博濤
  • 出版社:人民郵電
  • ISBN:9787115689252
  • 出版日期:2026/06/01
  • 裝幀:平裝
  • 頁數:280
人民幣:RMB 69.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    網路爬蟲是一種按照一定的規則,自動請求萬維網網站並採集網頁數據的程序或腳本。它可以代替人進行信息採集,能夠自動採集並高效利用互聯網中的數據,因此在市場的應用需求中佔據重要位置。
    本書以Windows為主要開發平台,系統、全面地講解Python網路爬蟲的相關知識。本書的主要內容包括認識網路爬蟲、網頁請求原理、抓取靜態網頁數據、解析網頁數據、抓取動態網頁數據、提升網路爬蟲速度、存儲數據、驗證碼識別、初識網路爬蟲框架Scrapy、Scrapy核心組件與CrawlSpider類、分散式網路爬蟲Scrapy-Redis。
    本書既可作為高等教育本、專科院校電腦相關專業的教材,也可作為Python網路爬蟲愛好者的自學參考書。

作者介紹
編者:張治元|責編:范博濤

目錄
第1章  認識網路爬蟲
  學習目標
  1.1  什麼是網路爬蟲
  1.2  網路爬蟲的應用場景
  1.3  網路爬蟲合法性探究
    1.3.1  Robots協議
    1.3.2  防爬蟲應對策略
  1.4  網路爬蟲的工作原理和流程
    1.4.1  網路爬蟲的工作原理
    1.4.2  網路爬蟲抓取網頁的流程
  1.5  網路爬蟲實現技術探究
    1.5.1  網路爬蟲的實現技術
    1.5.2  使用Python實現網路爬蟲的流程
  1.6  AI賦能網路爬蟲
    1.6.1  AIGC工具的安裝與使用
    1.6.2  使用AIGC工具快速實現網路爬蟲
  1.7  本章小結
  1.8  習題
第2章  網頁請求原理
  學習目標
  2.1  瀏覽器載入網頁的完整過程
  2.2  HTTP基礎
    2.2.1  URL簡介
    2.2.2  HTTP和HTTPS
    2.2.3  HTTP請求的格式
    2.2.4  HTTP響應的格式
  2.3  網頁基礎
    2.3.1  網頁開發技術
    2.3.2  網頁的結構
    2.3.3  網頁的分類
    2.3.4  網頁數據的格式
  2.4  HTTP抓包工具——Fiddler
    2.4.1  Fiddler的工作原理
    2.4.2  Fiddler的下載與安裝
    2.4.3  Fiddler工作界面詳解
    2.4.4  Fiddler捕獲HTTPS會話的設置
    2.4.5  Fiddler的基本使用
  2.5  瀏覽器開發者工具
  2.6  本章小結
  2.7  習題
第3章  抓取靜態網頁數據
  學習目標
  3.1  抓取靜態網頁的技術
  3.2  發送基本請求
    3.2.1  發送GET請求
    3.2.2  發送POST請求
    3.2.3  處理響應
  3.3  處理複雜請求
    3.3.1  定製請求頭
    3.3.2  驗證Cookie

    3.3.3  保持會話
    3.3.4  SSL證書驗證
  3.4  設置代理伺服器
    3.4.1  代理伺服器簡介
    3.4.2  設置代理伺服器的步驟
    3.4.3  檢測代理IP地址的有效性
  3.5  處理異常
  3.6  實踐項目:抓取黑馬程序員社區中的論壇的數據
  【項目目標】
  【項目分析】
  【項目實現】
  3.7  本章小結
  3.8  習題
第4章  解析網頁數據
  學習目標
  4.1  解析網頁數據的技術
  4.2  正則表達式與re模塊
    4.2.1  正則表達式的語法
    4.2.2  re模塊的使用
  4.3  XPath與lxml庫
    4.3.1  XPath簡介
    4.3.2  XPath語法
    4.3.3  XPath開發工具
    4.3.4  lxml庫的核心類
  4.4  Beautiful Soup庫
    4.4.1  Beautiful Soup簡介
    4.4.2  創建BeautifulSoup類的對象
    4.4.3  通過查找方法選取節點
    4.4.4  通過CSS選擇器選取節點
  4.5  JSONPath與jsonpath模塊
    4.5.1  JSONPath語法
    4.5.2  jsonpath模塊的使用
  4.6  實踐項目:採集黑馬程序員社區中的論壇帖子的詳細信息
  【項目目標】
  【項目分析】
  【項目實現】
  4.7  本章小結
  4.8  習題
第5章  抓取動態網頁數據
  學習目標
  5.1  抓取動態網頁的技術
  5.2  Selenium和WebDriver的安裝與配置
  5.3  Selenium的基本使用
    5.3.1  WebDriver類的常用屬性和方法
    5.3.2  定位元素
    5.3.3  滑鼠操作
    5.3.4  下拉列表框操作
    5.3.5  彈出框處理
    5.3.6  窗口切換
    5.3.7  頁面等待

  5.4  實踐項目:採集集信達平台的簡訊服務日誌信息
  【項目目標】
  【項目分析】
  【項目實現】
  5.5  本章小結
  5.6  習題
第6章  提升網路爬蟲速度
  學習目標
  6.1  網路爬蟲速度提升方案
  6.2  多線程爬蟲
    6.2.1  多線程爬蟲的運行流程
    6.2.2  多線程爬蟲的實現技術
    6.2.3  多線程爬蟲基本示例
    6.2.4  多線程爬蟲性能分析
  6.3  協程爬蟲
    6.3.1  協程爬蟲的運行流程
    6.3.2  協程爬蟲的實現技術
    6.3.3  協程爬蟲基本示例
    6.3.4  協程爬蟲性能分析
  6.4  實踐項目:採集黑馬頭條的評論列表
  【項目目標】
  【項目分析】
  【項目實現】
  6.5  本章小結
  6.6  習題
第7章  存儲數據
  學習目標
  7.1  數據存儲的方式
  7.2  存儲至MongoDB資料庫
    7.2.1  下載與安裝MongoDB
    7.2.2  使用Python操作MongoDB
  7.3  存儲至Redis資料庫
    7.3.1  下載與安裝Redis
    7.3.2  使用Python操作Redis
    7.3.3  Redis桌面管理工具
  7.4  實踐項目:採集小兔鮮兒網的商品信息
  【項目目標】
  【項目分析】
  【項目實現】
  7.5  本章小結
  7.6  習題
第8章  驗證碼識別
  學習目標
  8.1  字元驗證碼的識別
  8.2  滑動拼圖驗證碼的識別
  8.3  點選驗證碼的識別
  8.4  實踐項目:識別滑動拼圖驗證碼並登錄黑馬頭條後台管理系統
  【項目目標】
  【項目分析】
  【項目實現】

  8.5  本章小結
  8.6  習題
第9章  初識網路爬蟲框架Scrapy
  學習目標
  9.1  Scrapy框架簡介
  9.2  Scrapy框架的架構
  9.3  Scrapy框架的運作流程
  9.4  Scrapy框架的安裝
  9.5  Scrapy框架的基本操作
    9.5.1  新建Scrapy項目
    9.5.2  明確採集目標
    9.5.3  製作爬蟲
    9.5.4  永久存儲數據
  9.6  實踐項目:採集黑馬程序員視頻庫的視頻信息
  【項目目標】
  【項目分析】
  【項目實現】
  9.7  本章小結
  9.8  習題
第10章  Scrapy核心組件與CrawlSpider類
  學習目標
  10.1  Spiders組件
  10.2  Item Pipeline組件
  10.3  Downloader Middlewares中間件
    10.3.1  內置下載中間件
    10.3.2  自定義下載中間件
    10.3.3  激活下載中間件
  10.4  Settings組件
  10.5  CrawlSpider類
    10.5.1  CrawlSpider類簡介
    10.5.2  CrawlSpider類的工作原理
    10.5.3  通過Rule類決定抓取規則
    10.5.4  通過LinkExtractor類提取鏈接
  10.6  實踐項目:採集黑馬程序員視頻庫的公開課信息
  【項目目標】
  【項目分析】
  【項目實現】
  10.7  本章小結
  10.8  習題
第11章  分散式網路爬蟲Scrapy-Redis
  學習目標
  11.1  分散式網路爬蟲簡介
  11.2  Scrapy-Redis的架構
  11.3  Scrapy-Redis的運作流程
  11.4  Scrapy-Redis的開發準備
    11.4.1  安裝Scrapy-Redis
    11.4.2  修改配置文件
    11.4.3  測試遠程連接
  11.5  Scrapy-Redis的基本操作
    11.5.1  新建Scrapy-Redis項目

    11.5.2  明確採集目標
    11.5.3  製作爬蟲
    11.5.4  運行爬蟲
    11.5.5  使用管道存儲數據
  11.6  實踐項目:基於分散式網路爬蟲採集公開課信息
  【項目目標】
  【項目分析】
  【項目實現】
  11.7  本章小結
  11.8  習題

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032