幫助中心 | 我的帳號 | 關於我們

Python網路爬蟲項目式教程(高等職業院校新形態教材)/大數據系列

  • 作者:編者:錢游|責編:康靜
  • 出版社:電子工業
  • ISBN:9787121461972
  • 出版日期:2023/08/01
  • 裝幀:平裝
  • 頁數:278
人民幣:RMB 56 元      售價:
放入購物車
加入收藏夾

內容大鋼
    網路爬蟲是按照一定規則自動請求伺服器上的網頁,並採集網頁數據的一種程序或腳本,它可以代替人進行數據採集,也可以自動採集網頁數據、高效利用互聯網數據,因此在市場應用中佔據了重要位置。
    本書以Windows操作系統為主要開發平台,系統、全面地講解了網路爬蟲的相關知識。本書的主要內容包括保存伺服器網頁到本地、使用正則表達式提取網頁內容、爬取豆瓣電影TOP250欄目、使用requests庫爬取電影網站、通過模擬用戶登錄爬取網站、使用Scrapy框架爬取圖片網站、使用分散式爬蟲爬取騰訊招聘頻道,主要知識點囊括網路爬蟲基礎知識、網頁請求原理、抓取靜態網頁數據、解析網頁數據、抓取動態網頁數據、網路爬蟲的優化、數據的持久化存儲、識別驗證碼、搭建網路爬蟲框架、網路分散式爬蟲Scrapy-Redis的開發和部署等。
    本書內容通俗易懂,案例豐富,實用性強,特別適合Python語言的基礎學習者和進階學習者,也適合Python程序員、爬蟲工程師等編程愛好者。本書不僅可以作為高校教材,也可以作為相關培訓機構的教材,還可以作為廣大網路爬蟲開發者的參考書。此外,本書開發了豐富的教學資源庫,並免費提供所有素材。

作者介紹
編者:錢游|責編:康靜

目錄
項目一  保存伺服器網頁到本地
  任務1  認識網路爬蟲
    任務演示
    知識準備
      1.初步認識網路爬蟲
      2.網路爬蟲的結構及其工作原理
      3.爬蟲技術的風險與Robots協議
      4.Python的安裝
      5.Pygame的簡單使用
    任務實施
    任務拓展
      1.反爬蟲的目的與手段
      2.Windo環境下的MongoDB資料庫安裝和配置
      3.Linux環境下的MongoDB資料庫安裝和配置
  任務2  將請求到的網頁保存到本地
    任務演示
    知識準備
      1.使用urllib請求網頁
      2.安裝和配置MySQL資料庫
    任務實施
    任務拓展
  小結
  複習題
項目二  使用正則表達式提取網頁內容
  任務1  在網頁上展示偉大抗疫精神
    任務演示
    知識準備
      1.HTML基礎知識
      2.CSS基礎知識
      3.CSS樣式選擇器
    任務實施
    任務拓展
      1.JavaScript的引入
      2.JavaScript的基本語法
  任務2  使用正則表達式提取文本中的指定內容
    任務演示
    知識準備
      1.正則表達式的基本語法
      2.正則表達式的使用
    任務實施
    任務拓展
  小結
  複習題
項目三  爬取豆瓣電影TOP250欄目
  任務1  使用urllib框架請求網頁
    任務演示
    知識準備
      1.網路爬蟲開發的基本流程
      2.urllib框架的基本模塊
      3.字元的編碼和解碼

    任務實施
      1.URL分析
      2.編碼規範
      3.爬取豆瓣電影TOP250欄目
    任務拓展
  任務2  使用BeautifulSoup4解析網頁
    任務演示
    知識準備
      1.BeautifulSoup4的四個對象
      2.文檔的遍歷
      3.文檔的搜索
    任務實施
    任務拓展
  任務3  使用XPath解析網頁數據
    任務演示
    知識準備
    任務實施
    任務拓展
  任務4  數據的持久化存儲
    任務演示
    知識準備
    任務實施
    任務拓展
  小結
  複習題
項目四  使用requests庫爬取電影網站
  任務1  使用requests庫請求網頁
    任務演示
    知識準備
      1.requests庫的安裝
      2.GET請求
      3.POST請求
    任務實施
    任務拓展
  任務2  使用requests-html庫解析網頁
    任務演示
    知識準備
      1.requests-html庫的新功能
      2.requests-html庫的安裝
      3.requests-html庫的使用
    任務實施
    任務拓展
      1.網路爬蟲的優化
      2.將請求到的數據保存到MySQL資料庫中
  小結
  複習題
項目五  通過模擬用戶登錄爬取網站
  任務1  模擬用戶登錄
    任務演示
    知識準備

      1.使用ddddocr模塊識別驗證碼
      2.使用在線平台行打碼
    任務實施
      1.對古詩文網的登錄驗證碼行驗證
      2.實現模擬用戶登錄
    任務拓展
      1.攜帶Cookies請求網頁
      2.古詩文網登錄實現
      3.在登錄成功後行數據採集
  任務2  使用Selenium模擬用戶登錄豆瓣網
    任務演示
    知識準備
      1.什麼是Selenium
      2.Selenium的安裝
    任務實施
    任務拓展
  小結
  複習題
項目六  使用Scrapy框架爬取圖片網站
  任務1  Scrapy開發環境搭建
    任務演示
    知識準備
      1.常見的爬蟲框架
      2.Scrapy框架概述
    任務實施
    任務拓展
  任務2  使用Scrapy框架爬取代理IP
    任務演示
    知識準備
      1.XPath選擇器
      2.CSS選擇器
    任務實施
    任務拓展
  任務3  Scrapy數據的持久化存儲
    任務演示
    知識準備
      1.基於終端命令存儲
      2.基於管道存儲
    任務實施
      1.實現基於終端命令的數據持久化存儲
      2.實現基於管道的數據持久化存儲——使用文本存儲數據
      3.實現基於管道的數據持久化存儲—使用MySQL資料庫存儲數據
      4.實現基於管道的數據持久化存儲——使用Redis資料庫存儲數據
      5.實現基於管道的數據持久化存儲——使用MongoDB資料庫存儲數據
    任務拓展
  任務4  爬取圖片網站
    任務演示
    知識準備
    任務實施
    任務拓展

      1.將爬取的圖片名及其路徑保存到MySQL資料庫中
      2.使用Scrapy框架爬取圖說歷史欄目
  小結
  複習題
項目七  使用分散式爬蟲爬取騰訊招聘頻道
  任務1  搭建Scrapy-Redis開發環境
    任務演示
    知識準備
      1.分散式爬蟲的基本概念
      2.分散式環境的搭建
      3.在Ubuntu系統上安裝Scrapy
      4.在CentOS 7系統上安裝Scrapy
    任務實施
    任務拓展
  任務2  開發分散式爬蟲
    任務演示
    知識準備
    任務實施
      1.創建Scrapy爬蟲
      2.初始化配置
      3.網站結構分析
      4.爬蟲的核心代碼
      5.部署分散式爬蟲
    任務拓展
      1.隨機請求頭
      2.爬取視頻
  小結
  複習題

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032