幫助中心 | 我的帳號 | 關於我們

Python網路爬蟲權威指南(第2版)/圖靈程序設計叢書

  • 作者:(美)瑞安·米切爾|譯者:神煩小寶
  • 出版社:人民郵電
  • ISBN:9787115509260
  • 出版日期:2019/04/01
  • 裝幀:平裝
  • 頁數:241
人民幣:RMB 79 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書採用簡潔強大的Python語言,介紹了網頁抓取,併為抓取新式網路中的各種數據類型提供了全面的指導。第一部分重點介紹網頁抓取的基本原理:如何用Python從網路伺服器請求信息,如何對伺服器的響應進行基本處理,以及如何以自動化手段與網站進行交互。第二部分介紹如何用網路爬蟲測試網站,自動化處理,以及如何通過更多的方式接入網路。
    本書適合需要抓取Web數據的相關軟體開發人員和研究人員閱讀。

作者介紹
(美)瑞安·米切爾|譯者:神煩小寶
    瑞安·米切爾是位於波士頓的HedgeSe rv的高級軟體工程師,負責開發公司的API和數據分析工具。她畢業於歐林工程學院,擁有哈佛大學擴展學院(HarvardUrliversity Exterlsion School)軟體工程碩士學位以及數據科學證書。在加入HedgeServ之前,她曾就職于Abine,負責使用Python開髮網絡數據採集工具和自動化工具。她經常從事零售、金融和製藥行業的網路數據採集項目的咨詢工作,還曾經在東北大學和歐林工程學院擔任課程顧問和兼職教員。

目錄
前言
第一部分  創建爬蟲
  第1章  初見網路爬蟲
    1.1  網路連接
    1.2  BeautifulSoup簡介
      1.2.1  安裝BeautifulSoup
      1.2.2  運行BeautifulSoup
      1.2.3  可靠的網路連接以及異常的處理
  第2章  複雜HTML解析
    2.1  不是一直都要用鎚子
    2.2  再端一碗BeautifulSoup
      2.2.1  BeautifulSoup的find()和find_all()
      2.2.2  其他BeautifulSoup對象
      2.2.3  導航樹
    2.3  正則表達式
    2.4  正則表達式和BeautifulSoup
    2.5  獲取屬性
    2.6  Lambda表達式
  第3章  編寫網路爬蟲
    3.1  遍歷單個域名
    3.2  抓取整個網站
    3.3  在互聯網上抓取
  第4章  網路爬蟲模型
    4.1  規劃和定義對象
    4.2  處理不同的網站布局
    4.3  結構化爬蟲
      4.3.1  通過搜索抓取網站
      4.3.2  通過鏈接抓取網站
      4.3.3  抓取多種類型的頁面
    4.4  關於網路爬蟲模型的思考
  第5章  Scrapy
    5.1  安裝Scrapy
    5.2  創建一個簡易爬蟲
    5.3  帶規則的抓取
    5.4  創建item
    5.5  輸出item
    5.6  item管線組件
    5.7  Scrapy日誌管理
    5.8  更多資源
  第6章  存儲數據
    6.1  媒體文件
    6.2  把數據存儲到CSV
    6.3  MySQL
      6.3.1  安裝MySQL
      6.3.2  基本命令
      6.3.3  與Python整合
      6.3.4  資料庫技術與最佳實踐
      6.3.5  MySQL里的「六度空間遊戲」
    6.4  Email
第二部分  高級網頁抓取

  第7章  讀取文檔
    7.1  文檔編碼
    7.2  純文本
    7.3  CSV
    7.4  PDF
    7.5  微軟Word和.docx
  第8章  數據清洗
    8.1  編寫代碼清洗數據
    8.2  數據存儲后再清洗
  第9章  自然語言處理
    9.1  概括數據
    9.2  馬爾可夫模型
    9.3  自然語言工具包
      9.3.1  安裝與設置
      9.3.2  用NLTK做統計分析
      9.3.3  用NLTK做詞性分析
    9.4  其他資源
  第10章  穿越網頁表單與登錄窗口進行抓取
    10.1  Python Requests庫
    10.2  提交一個基本表單
    10.3  單選按鈕、複選框和其他輸入
    10.4  提交文件和圖像
    10.5  處理登錄和cookie
    10.6  其他表單問題
  第11章  抓取JavaScript
    11.1  JavaScript簡介
    11.2  Ajax和動態HTML
      11.2.1  在Python中用Selenium執行JavaScript
      11.2.2  Selenium的其他webdriver
    11.3  處理重定向
    11.4  關於JavaScript的最後提醒
  第12章  利用API抓取數據
    12.1  API概述
      12.1.1  HTTP方法和API
      12.1.2  更多關於API響應的介紹
    12.2  解析JSON數據
    12.3  無文檔的API
      12.3.1  查找無文檔的API
      12.3.2  記錄未被記錄的API
      12.3.3  自動查找和記錄API
    12.4  API與其他數據源結合
    12.5  再說一點API
  第13章  圖像識別與文字處理
    13.1  OCR庫概述
      13.1.1  Pillow
      13.1.2  Tesseract
      13.1.3  NumPy
    13.2  處理格式規範的文字
      13.2.1  自動調整圖像
      13.2.2  從網站圖片中抓取文字

    13.3  讀取驗證碼與訓練Tesseract
    13.4  獲取驗證碼並提交答案
  第14章  避開抓取陷阱
    14.1  道德規範
    14.2  讓網路機器人看著像人類用戶
      14.2.1  修改請求頭
      14.2.2  用JavaScript處理cookie
      14.2.3  時間就是一切
    14.3  常見表單安全措施
      14.3.1  隱含輸入欄位值
      14.3.2  避免蜜罐
    14.4  問題檢查表
  第15章  用爬蟲測試網站
    15.1  測試簡介
    15.2  Python單元測試
    15.3  Selenium單元測試
    15.4  單元測試與Selenium單元測試的選擇
  第16章  並行網頁抓取
    16.1  進程與線程
    16.2  多線程抓取
      16.2.1  競爭條件與隊列
      16.2.2  threading模塊
    16.3  多進程抓取
      16.3.1  多進程抓取
      16.3.2  進程間通信
    16.4  多進程抓取的另一種方法
  第17章  遠程抓取
    17.1  為什麼要用遠程伺服器
      17.1.1  避免IP地址被封殺
      17.1.2  移植性與擴展性
    17.2  Tor代理伺服器
    17.3  遠程主機
      17.3.1  從網站主機運行
      17.3.2  從雲主機運行
    17.4  其他資源
  第18章  網頁抓取的法律與道德約束
    18.1  商標、版權、專利
    18.2  侵害動產
    18.3  電腦欺詐與濫用法
    18.4  robots.txt和服務協議
    18.5  3個網路爬蟲
      18.5.1  eBay起訴Bidder』s Edge侵害其動產
      18.5.2  美國政府起訴Auernheimer與《電腦欺詐與濫用法》
      18.5.3  Field起訴Google:版權和robots.txt
    18.6  勇往直前
關於作者
關於封面

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032