幫助中心 | 我的帳號 | 關於我們

零基礎學Python網路爬蟲案例實戰全流程詳解(高級進階篇)

  • 作者:編者:王宇韜//吳子湛//史靖涵|責編:劉立卿
  • 出版社:機械工業
  • ISBN:9787111684749
  • 出版日期:2021/07/01
  • 裝幀:平裝
  • 頁數:270
人民幣:RMB 89.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    網路爬蟲是當今獲取數據不可或缺的重要手段。本書講解了Python爬蟲的進階理論與技術,幫助讀者提升實戰水平。
    全書共7章。第1?3章為常見反爬機制的應對手段,主要內容包括Cookie模擬登錄、多種類型的驗證碼識別、Ajax動態請求破解。第4章為手機App內容爬取。第5章和第6章為Scrapy爬蟲框架應用。第7章為爬蟲雲伺服器部署。
    本書適合有一定Python網路爬蟲編程基礎的學生或相關從業人員,以及想要在Python網路爬蟲開發、不同類型的反爬機制應對、爬蟲框架開發、爬蟲雲端部署等方面進階提高的讀者。

作者介紹
編者:王宇韜//吳子湛//史靖涵|責編:劉立卿

目錄
前言
本書學習資源
第1章  Cookie模擬登錄
  1.1  Cookie模擬登錄的原理
    1.1.1  客戶端與服務端
    1.1.2  HTTP的無狀態性
    1.1.3  Cookie的含義與作用
    1.1.4  Session的含義與作用
    1.1.5  Cookie與Session的交互
  1.2  案例實戰1:模擬登錄淘寶並爬取數據
    1.2.1  獲取Cookie模擬登錄淘寶
    1.2.2  爬取淘寶商品數據
  1.3  案例實戰2:模擬登錄新浪微博並爬取數據
    1.3.1  獲取Cookie模擬登錄新浪微博
    1.3.2  爬取新浪微博熱搜榜信息
  課後習題
第2章  驗證碼反爬的應對
  2.1  圖像驗證碼
    2.1.1  超級鷹平台註冊
    2.1.2  超級鷹Python介面的使用
    2.1.3  案例實戰:英文驗證碼和中文驗證碼識別
  2.2  計算題驗證碼
  2.3  滑塊驗證碼
  2.4  滑動拼圖驗證碼
    2.4.1  初級版滑動拼圖驗證碼
    2.4.2  高級版滑動拼圖驗證碼
  2.5  點選驗證碼
    2.5.1  本地網頁識別
    2.5.2  bilibili點選驗證碼識別初探
    2.5.3  bilibili點選驗證碼識別升級:無限嘗試版
  課後習題
第3章  Ajax動態請求破解
  3.1  Ajax簡介
    3.1.1  不同的網頁翻頁方式的對比
    3.1.2  Ajax的基本概念與工作原理
  3.2  案例實戰1:爬取開源中國博客頻道
    3.2.1  分析Ajax請求
    3.2.2  爬取單頁博客
    3.2.3  爬取多頁博客
  3.3  案例實戰2:爬取新浪微博
    3.3.1  模擬登錄新浪微博
    3.3.2  分析單個微博頁面
    3.3.3  破解Ajax請求爬取多頁
  課後習題
第4章  手機App內容爬取
  4.1  相關軟體安裝
    4.1.1  安裝夜神模擬器
    4.1.2  安裝Node.js
    4.1.3  安裝JDK
    4.1.4  安裝Android Studio

    4.1.5  安裝Appium
    4.1.6  安裝Appium-Python-Client庫
  4.2  手機模擬操作初步嘗試
    4.2.1  用Android Studio連接夜神模擬器
    4.2.2  用Python連接微信App
  4.3  Appium基本操作與進階操作
    4.3.1  Appium基本操作
    4.3.2  Appium進階操作
  4.4  案例實戰:爬取微信朋友圈內容
    4.4.1  獲取微信朋友圈頁面源代碼
    4.4.2  提取微信朋友圈內容
  4.5  多開模擬器打開多個微信
    4.5.1  多開模擬器
    4.5.2  用Appium連接多個模擬器
  課後習題
第5章  Scrapy爬蟲框架
  5.1  Scrapy框架基礎
    5.1.1  Scrapy的安裝方法
    5.1.2  Scrapy的整體架構
    5.1.3  Scrapy的常用指令
  5.2  案例實戰1:百度新聞爬取
    5.2.1  Robots協議破解
    5.2.2  User-Agent設置
    5.2.3  百度新聞標題爬取
  5.3  案例實戰2:新浪新聞爬取
    5.3.1  實體文件設置
    5.3.2  新浪新聞爬取:爬取一條新聞
    5.3.3  新浪新聞爬取:爬取多條新聞
    5.3.4  新浪新聞爬取:生成文本文件報告
  5.4  案例實戰3:豆瓣電影海報圖片爬取
    5.4.1  用常規方法爬取
    5.4.2  用Scrapy爬取
  5.5  知識拓展:Python類的相關知識
    5.5.1  類和對象的概念
    5.5.2  類名、屬性和方法
    5.5.3  類的進階知識
  課後習題
第6章  Scrapy應對反爬
  6.1  中間件技術概述
    6.1.1  下載器中間件
    6.1.2  爬蟲中間件
  6.2  Scrapy IP代理:爬取搜狗圖片
    6.2.1  用Requests庫批量下載圖片
    6.2.2  用Scrapy框架批量下載圖片
  6.3  Scrapy Cookie:模擬登錄淘寶
    6.3.1  在中間件文件中添加Cookie
    6.3.2  編寫並運行爬蟲文件:爬取淘寶網頁
  6.4  Scrapy Selenium庫:爬取財經新聞
    6.4.1  在中間件文件中添加Selenium庫
    6.4.2  編寫並運行爬蟲文件:爬取新聞信息

  課後習題
第7章  爬蟲雲伺服器部署
  7.1  HTML網頁製作進階
    7.1.1  表格
    7.1.2  列表
    7.1.3  樣式設計
    7.1.4  背景設置
  7.2  Flask Web編程基礎
    7.2.1  Flask入門
    7.2.2  用render_template()函數渲染頁面
    7.2.3  用Flask連接資料庫
  7.3  Flask Web編程實戰
    7.3.1  展示單家公司的數據
    7.3.2  展示多家公司的數據
    7.3.3  展示輿情評分
    7.3.4  只展示當天新聞
    7.3.5  只展示負面新聞
  7.4  雲伺服器的購買和登錄
  7.5  程序雲端部署及網站搭建
    7.5.1  搭建程序的運行環境
    7.5.2  程序24小時運行及Flask項目部署
    7.5.3  域名申請和使用
  課後習題

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032