幫助中心 | 我的帳號 | 關於我們

Python爬蟲從菜鳥到高手

  • 作者:編者:李寧|責編:鍾志芳
  • 出版社:清華大學
  • ISBN:9787302640516
  • 出版日期:2023/09/01
  • 裝幀:平裝
  • 頁數:460
人民幣:RMB 119 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書從實戰角度系統論述了Python爬蟲技術的核心知識,並通過大量的真實項目幫助讀者深入掌握Python爬蟲技術及其實現。本書提供了大量實戰案例,演繹採用各種技術編寫Python爬蟲的方式。讀者可以任意組合使用這些技術,完成非常複雜的爬蟲應用。
    本書共20章,分為五篇。第一篇:基礎知識(第1?2章),主要包括Python編程環境的搭建、IDE的安裝和使用、HTTP的基礎知識、網頁基礎(HTML、CSS、JavaScript)、爬蟲的基本原理、Session、Cookie。第二篇:網路庫(第3?5章),主要包括網路庫urllib、urllib3和requests的核心使用方法,例如,發送HTTP請求、處理超時、設置HTTP請求頭、處理中文字元、搭建和使用代理、解析鏈接、Robots協議等。第三篇:解析庫(第6?9章),主要包括3個常用解析庫(lxml、BeautifulSoup和pyquery)的使用方法,同時介紹了多種用於分析HTML代碼的技術,例如,正則表達式、XPath、CSS選擇器、方法選擇器等。第四篇:數據存儲(第10?11章),主要包括Python中數據存儲的解決方案,如文件存儲和SQLite資料庫。第五篇:爬蟲高級應用(第12?20章),主要包括Python爬蟲的一些高級技術,如抓取非同步數據、Selenium、Splash、抓取移動App數據、Appium、多線程爬蟲、爬蟲框架Scrapy、通過OpenCV技術識別驗證碼;最後給出一個綜合的實戰案例,該案例綜合了Python爬蟲、數據存儲、PyQt、多線程、數據可視化、Web等多種技術實現一個可視化爬蟲。

作者介紹
編者:李寧|責編:鍾志芳
    李寧     華為HDE(HUAWEI Developer Experts),UnityMarvel創始人,開放原子基金會銀牌講師,51CTO學堂金牌講師,IT暢銷書作者。從事軟體研究和開發超過20年,長期從事編譯器、人工智慧、Python、JavaScript、Java及跨平台技術的研究和開發工作,曾出版超過40本IT圖書。

目錄
第一篇  基礎知識
  第1章  開發環境配置
  6分鐘
    1.1  搭建Python編程環境
      1.1.1  獲取Python安裝包
      1.1.2  安裝Windows版的Python開發包
      1.1.3  安裝macOS版的Python開發包
      1.1.4  安裝Linux版的Python開發包
    1.2  安裝AnacondaPython開發環境
    1.3  消除PythonREPL中的錯誤和警告
    1.4  安裝PyCharm
    1.5  配置PyCharm
    1.6  小結
  第2章  爬蟲基礎
  10分鐘
    2.1  HTTP基礎
      2.1.1  URI和URL
      2.1.2  超文本
      2.1.3  HTTP與HTTPS
      2.1.4  HTTP的請求過程
      2.1.5  請求
      2.1.6  響應
    2.2  網頁基礎
      2.2.1  HTML基礎
      2.2.2  CSS基礎
      2.2.3  CSS選擇器
      2.2.4  JavaScript
    2.3  爬蟲的基本原理
      2.3.1  爬蟲的分類
      2.3.2  爬蟲抓取數據的方式和手段
    2.4  Session與Cookie
      2.4.1  靜態頁面和動態頁面
      2.4.2  無狀態HTTP與Cookie
      2.4.3  利用Session和Cookie保持狀態
      2.4.4  查看網站的Cookie
      2.4.5  HTTP狀態何時會失效
    2.5  項目實戰:抓取所有的網路資源
      實例2.1  基於遞歸演算法的爬蟲的代碼
    2.6  項目實戰:抓取博客文章列表
      實例2.2  抓取博客園首頁文章列表的爬蟲
    2.7  小結
第二篇  網路庫
  第3章  網路庫urllib
  39分鐘
    3.1  urllib簡介
    3.2  發送請求與獲得響應
      3.2.1  用urlopen函數發送HTTPGET請求
      實例3.1  使用HTTPResponse讀取響應數據
      3.2.2  用urlopen函數發送HTTPPOST請求
      實例3.2  使用urlopen函數發送HTTPPOST請求,並獲得返回數據

      3.2.3  請求超時
      實例3.3  捕捉urlopen函數的超時異常
      3.2.4  設置HTTP請求頭
      實例3.4  修改和提交HTTP請求頭
      3.2.5  設置中文HTTP請求頭
      實例3.5  設置和解碼中文HTTP請求頭
      3.2.6  請求基礎驗證頁面
      實例3.6  請求基礎驗證頁面
      3.2.7  搭建代理與使用代理
      實例3.7  通過代理訪問Web頁面
      3.2.8  讀取和設置Cookie
      實例3.8  讀取Cookie
      實例3.9  將Cookie保存為Mozille格式和LWP格式
      實例3.10  裝載和發送Cookie
    3.3  異常處理
      3.3.1  URLError
      實例3.11  捕捉髮送請求拋出的異常
      3.3.2  HTTPError
……
第三篇  解析庫
第四篇  數據存儲
第五篇  爬蟲高級應用

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032