幫助中心 | 我的帳號 | 關於我們

用Python寫網路爬蟲(第2版)

  • 作者:(德)凱瑟琳·雅姆爾//(澳)理查德·勞森|譯者:李斌
  • 出版社:人民郵電
  • ISBN:9787115479679
  • 出版日期:2018/08/01
  • 裝幀:平裝
  • 頁數:196
人民幣:RMB 49 元      售價:
放入購物車
加入收藏夾

內容大鋼
    凱瑟琳·雅姆爾,理查德·勞森著的《用Python寫網路爬蟲(第2版)》講解了如何使用Python來編寫網路爬蟲程序,內容包括網路爬蟲簡介,從頁面中抓取數據的3種方法,提取緩存中的數據,使用多個線程和進程進行併發抓取,抓取動態頁面中的內容,與表單進行交互,處理頁面中的驗證碼問題,以及使用Scarpy和Portia進行數據抓取,並在最後介紹了使用本書講解的數據抓取技術對幾個真實的網站進行抓取的實例,旨在幫助讀者活學活用書中介紹的技術。
    本書適合有一定Python編程經驗而且對爬蟲技術感興趣的讀者閱讀。

作者介紹
(德)凱瑟琳·雅姆爾//(澳)理查德·勞森|譯者:李斌

目錄
第1章  網路爬蟲簡介
  1.1  網路爬蟲何時有用
  1.2  網路爬蟲是否合法
  1.3  Python3
  1.4  背景調研
    1.4.1  檢查robots.txt
    1.4.2  檢查網站地圖
    1.4.3  估算網站大小
    1.4.4  識別網站所用技術
    1.4.5  尋找網站所有者
  1.5  編寫第一個網路爬蟲
    1.5.1  抓取與爬取的對比
    1.5.2  下載網頁
    1.5.3  網站地圖爬蟲
    1.5.4  ID遍歷爬蟲
    1.5.5  鏈接爬蟲
    1.5.6  使用requests庫
  1.6  本章小結
第2章  數據抓取
  2.1  分析網頁
  2.2  種網頁抓取方法
    2.2.1  正則表達式
    2.2.2  Beautiful Soup
    2.2.3  Lxml
  2.3  CSS選擇器和瀏覽器控制台
  2.4  XPath選擇器
  2.5  LXML和家族樹
  2.6  性能對比
  2.7  抓取結果
    2.7.1  抓取總結
    2.7.2  為鏈接爬蟲添加抓取回調
  2.8  本章小結
第3章  下載緩存
  3.1  何時使用緩存
  3.2  為鏈接爬蟲添加緩存支持
  3.3  磁碟緩存
    3.3.1  實現磁碟緩存
    3.3.2  緩存測試
    3.3.3  節省磁碟空間
    3.3.4  清理過期數據
    3.3.5  磁碟緩存缺點
  3.4  鍵值對存儲緩存
    3.4.1  鍵值對存儲是什麼
    3.4.2  安裝Redis
    3.4.3  Redis概述
    3.4.4  Redis緩存實現
    3.4.5  壓縮
    3.4.6  測試緩存
    3.4.7  探索requests-cache
  3.5  本章小結

第4章  併發下載
  4.1  萬個網頁
  4.2  串列爬蟲
  4.3  多線程爬蟲
  4.4  線程和進程如何工作
    4.4.1  實現多線程爬蟲
    4.4.2  多進程爬蟲
  4.5  性能
  4.6  本章小結
第5章  動態內容
  5.1  動態網頁示例
  5.2  對動態網頁進行逆向工程
  5.3  渲染動態網頁
    5.3.1  PyQt還是PySide
    5.3.2  執行JavaScript
    5.3.3  使用WebKit與網站交互
  5.4  渲染類
  5.5  本章小結
第6章  表單交互
  6.1  登錄表單
  6.2  支持內容更新的登錄腳本擴展
  6.3  使用Selenium實現自動化表單處理
  6.4  本章小結
第7章  驗證碼處理
  7.1  註冊賬號
  7.2  光學字元識別
  7.3  處理複雜驗證碼
  7.4  使用驗證碼處理服務
    7.4.1  9kw入門
    7.4.2  報告錯誤
    7.4.3  與註冊功能集成
  7.5  驗證碼與機器學習
  7.6  本章小結
第8章  Scrapy
  8.1  安裝Scrapy
  8.2  啟動項目
    8.2.1  定義模型
    8.2.2  創建爬蟲
  8.3  不同的爬蟲類型
  8.4  使用shell命令抓取
    8.4.1  檢查結果
    8.4.2  中斷與恢復爬蟲
  8.5  使用Portia編寫可視化爬蟲
    8.5.1  安裝
    8.5.2  標注
    8.5.3  運行爬蟲
    8.5.4  檢查結果
  8.6  使用Scrapely實現自動化抓取
  8.7  本章小結
第9章  綜合應用

  9.1  Google搜索引擎
  9.2  Facebook
    9.2.1  網站
    9.2.2  Facebook API
  9.3  Gap
  9.4  寶馬
  9.5  本章小結

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032