幫助中心 | 我的帳號 | 關於我們

Python網路爬蟲案例實戰/清華開發者書庫

  • 作者:編者:李曉東|責編:劉星//李曄
  • 出版社:清華大學
  • ISBN:9787302562283
  • 出版日期:2021/01/01
  • 裝幀:平裝
  • 頁數:363
人民幣:RMB 89 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書介紹如何利用Python開髮網絡爬蟲,實用性較強。本書以案例項目為驅動,由淺人深地講解爬蟲開發中所需要的知識和技能。從靜態網站到動態網站,從單機爬蟲到分散式爬蟲,既包含基礎知識點,又講解了關鍵問題和重難點問題,包含從入門到進階的所有知識。本書主要包括爬蟲網路概述、Web前端、靜態網路抓取、動態網頁抓取、解析網頁、Python併發、資料庫、反爬蟲、亂碼問題、登錄與驗證碼、採集伺服器、基礎爬蟲、App爬取、分散式爬蟲、爬蟲的綜合實戰等內容。
    本書適合Python初學者,也適合研究Python的廣大科研人員、學者、工程技術人員。

作者介紹
編者:李曉東|責編:劉星//李曄

目錄
第1章  爬蟲網路概述
  1.1  HTTP基本原理
    1.1.1  URL和URL
    1.1.2  超文本
    1.1.3  HTTP和HTTPS
    1.1.4  HTTP請求過程
    1.1.5  請求
    1.1.6  響應
  1.2  網頁基礎
    1.2.1  網頁的組成
    1.2.2  節點樹及節點間的關係
    1.2.3  選擇器
  1.3  網路爬蟲合法性
    1.3.1  Robots協議
    1.3.2  網路爬蟲的約束
  1.4  網路爬蟲技術
    1.4.1  網路爬蟲的概述
    1.4.2  網路爬蟲原理
    1.4.3  網路爬蟲系統的工作原理
    1.4.4  Python爬蟲的架構
    1.4.5  爬蟲對互聯網進行劃分
  1.5  爬取策略
  1.6  爬蟲網路更新策略
  1.7  會話和Cookie
    1.7.1  靜態網頁和動態網頁
    1.7.2  無狀態HTTP
    1.7.3  常見誤區
  1.8  代理的基本原理
    1.8.1  基本原理
    1.8.2  代理的作用
    1.8.3  爬蟲代理
    1.8.4  代理分類
    1.8.5  常見代理設置
  1.9  習題
第2章  Python平台及Web前端
  2.1  Python軟體概述
  2.2  Python的安裝
    2.2.1  在Linux系統中搭建Python環境
    2.2.2  在Windows系統中搭建Python環境
    2.2.3  使用pip安裝第三方庫
  2.3  Python的入門
    2.3.1  基本命令
    2.3.2  數據類型
  2.4  條件語句與循環語句
    2.4.1  條件語句
    2.4.2  循環語句
  2.5  面向對象編程
    2.5.1  面向對象技術簡介
    2.5.2  類定義
    2.5.3  類對象

    2.5.4  類的方法
    2.5.5  繼承
  2.6  第一個爬蟲實例
  2.7  Web前端
  2.8  習題
第3章  靜態網頁爬取
  3.1  Requests的安裝
  3.2  獲取響應內容
  3.3  JSON資料庫
    3.3.1  JSON的使用
    3.3.2  爬取抽屜網信息
  3.4  傳遞URL參數
  3.5  獲取響應內容
  3.6  獲取網頁編碼
  3.7  定製請求頭
  3.8  發送POST請求
  3.9  設置超時
  3.10  代理訪問
  3.11  自定義請求頭部
  3.12  Requests爬蟲實踐
    3.12.1  狀態碼521網頁的爬取
    3.12.2  TOP250電影數據
  3.13  習題
第4章  動態網頁爬取
  4.1  動態爬取淘寶網實例
  4.2  什麼是Ajax
    4.2.1  Ajax分析
    4.2.2  Ajax結果提取
    4.2.3  Ajax爬取今日頭條街拍美圖
  4.3  解析真實地址爬取
  4.4  selenium爬取動態網頁
    4.4.1  安裝selenium
    4.4.2  爬取百度表情包
  4.5  爬取去哪兒網
  4.6  習題
第5章  解析網頁
  5.1  獲取豆瓣電影
  5.2  正則表達式解析網頁
    5.2.1  字元串匹配
    5.2.2  起始位置匹配字元串
    5.2.3  所有子串匹配
    5.2.4  Requests爬取貓眼電影排行
  5.3  BeautifulSoup解析網頁
  5.4  PyQuery解析庫
    5.4.1  使用PyQuery
    5.4.2  PyQuery爬取煎蛋網商品圖片
  5.5  lxml解析網頁
    5.5.1  使用lxml
    5.5.2  文件讀取
    5.5.3  XPath使用

    5.5.4  爬取LOL百度貼吧圖片
  5.6  爬取二手房網站數據
  5.7  習題
第6章  併發與Web
  6.1  併發和並行、同步和非同步、阻塞與非阻塞
    6.1.1  併發和並行
    6.1.2  同步與非同步
    6.1.3  阻塞與非阻塞
  6.2  線程
    6.2.1  線程模塊
    6.2.2  使用Threading模塊創建線程
    6.2.3  線程同步
    6.2.4  線程池在Web編程的應用
  6.3  隊列
  6.4  進程
    6.4.1  進程與線程的歷史
    6.4.2  進程與線程之間的關係
    6.4.3  進程與進程池
  6.5  協程
    6.5.1  協程的生成器的基本行為
    6.5.2  協程的4個狀態
    6.5.3  終止協程和異常處理
    6.5.4  顯式地將異常發給協程
    6.5.5  yieldfrom獲取協程的返回值
    6.5.6  協程案例分析
  6.6  分散式進程案例分析
  6.7  網路編程
    6.7.1  TCP編程
    6.7.2  UDP編程
  6.8  習題
第7章  Python資料庫存儲
  7.1  幾種保存方法
    7.1.1  Open函數保存
    7.1.2  pandas包保存
    7.1.3  CSV模塊保存
    7.1.4  numpy包保存
  7.2  JSON文件存儲
    7.2.1  對象和數組
    7.2.2  讀取JSON
    7.2.3  讀JSON文件
    7.2.4  輸出JSON
  7.3  存儲到MongoDB資料庫
    7.3.1  MongoDB的特點
    7.3.2  下載安裝MongoDB
    7.3.3  配置MongoDB服務
    7.3.4  創建資料庫
  7.4  爬取虎撲論壇帖子
  7.5  習題
第8章  Python反爬蟲
  8.1  為什麼會被反爬蟲

  8.2  反爬蟲的方式有哪些
    8.2.1  不返回網頁
    8.2.2  返回數據非目標網頁
    8.2.3  獲取數據變難
  8.3  怎樣「反反爬蟲」
    8.3.1  修改請求頭
    8.3.2  修改爬蟲訪問周期
    8.3.3  使用代理
  8.4  習題
第9章  Python中文亂碼問題
  9.1  什麼是字元編碼
  9.2  Python的字元編碼
  9.3  解決中文編碼問題
  9.4  網頁使用gzip壓縮
  9.5  Python讀寫文件中出現亂碼
  9.6  Matplotlib中文亂碼問題
  9.7  習題
第10章  Python登錄與驗證碼
  10.1  登錄表單
    10.1.1  處理登錄表單
    10.1.2  處理Cookie
    10.1.3  完整的登錄代碼
  10.2  驗證碼處理
    10.2.1  如何使用驗證碼驗證
    10.2.2  人工方法處理驗證碼
    10.2.3  OCR處理驗證碼
  10.3  極驗滑動驗證碼的識別案例
  10.4  點觸驗證碼的識別案例
  10.5  習題
第11章  Python採集伺服器
  11.1  使用伺服器採集原因
    11.1.1  大規模爬蟲的需要
    11.1.2  防止IP地址被封殺
  11.2  動態IP撥號伺服器
    11.2.1  購買撥號伺服器
    11.2.2  登錄伺服器
    11.2.3  Python更換IP
    11.2.4  爬蟲與更換IP功能結合
  11.3  Tor代理伺服器
    11.3.1  安裝Tor
    11.3.2  使用Tor
    11.3.3  實現自動投票
  11.4  習題
第12章  Python基礎爬蟲
  12.1  架構及流程
  12.2  URL管理器
  12.3  HTML下載器
  12.4  HTML解析器
  12.5  數據存儲器
  12.6  爬蟲調度器實現

  12.7  習題
第13章  Python的App爬取
  13.1  Charles爬取
  13.2  Appium爬取
    13.2.1  Appium安裝
    13.2.2  Appium的基本使用
  13.3  API爬取
  13.4  Appium爬取微信朋友圈
  13.5  習題
第14章  Python分散式爬蟲
  14.1  主從模式
    14.1.1  URL管理器
    14.1.2  數據存儲器
    14.1.3  控制調度器
  14.2  爬蟲節點
    14.2.1  HTML下載器
    14.2.2  HTML解析器
    14.2.3  爬蟲調度器
  14.3  Redis
    14.3.1  Redis的安裝
    14.3.2  Redis的配置
    14.3.3  數據類型
  14.4  Python與Redis
    14.4.1  連接方式
    14.4.2  連接池
    14.4.3  Redis的基本操作
    14.4.4  管道
    14.4.5  發布和訂閱
  14.5  操作RabbitMQ
    14.5.1  安裝Erlang
    14.5.2  安裝RabbitMQ
  14.6  習題
第15章  爬蟲的綜合實戰
  15.1  Email提醒
  15.2  爬取mp3資源信息
  15.3  創建雲起書院爬蟲
  15.4  使用代理爬取微信公眾號文章
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032