幫助中心 | 我的帳號 | 關於我們

Python網路爬蟲從入門到精通/Python開發從入門到精通系列

  • 作者:編者:呂雲翔//張揚//韓延剛
  • 出版社:機械工業
  • ISBN:9787111625933
  • 出版日期:2019/05/01
  • 裝幀:平裝
  • 頁數:333
人民幣:RMB 79 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書的主旨是介紹如何結合Python進行網路爬蟲程序的開發,從Python語言的基本特性入手,詳細介紹了Python網路爬蟲開發的各個方面,涉及HTTP、HTML、JavaScript、正則表達式、自然語言處理、數據科學等不同領域的內容。全書共15章,包括Python基礎知識、網站分析、網頁解析、Python文件讀寫、Python與資料庫、AJAX技術、模擬登錄、文本與數據分析、網站測試、Scrapy爬蟲框架、爬蟲性能等多個主題。本書內容覆蓋網路抓取與爬蟲編程中的主要知識和技術,在重視理論基礎的前提下,從實用性和豐富性出發,結合實例演示了爬蟲編寫的核心流程。
    本書適合Python語言初學者、網路爬蟲技術愛好者、數據分析從業人士以及高等院校電腦科學、軟體工程等相關專業的師生閱讀。

作者介紹
編者:呂雲翔//張揚//韓延剛

目錄
第1章  Python與網路爬蟲
  1.1  Python語言
    1.1.1  什麼是Python
    1.1.2  Python的應用現狀
  1.2  Python的安裝與開發環境配置
    1.2.1  在Windows上安裝
    1.2.2  在Ubuntu和Mac OS上安裝
    1.2.3  PyCharm的使用
    1.2.4  Jupyter Notebook
  1.3  Python基本語法
    1.3.1  HelloWorld與數據類型
    1.3.2  邏輯語句
    1.3.3  Python中的函數與類
    1.3.4  Python從0到
  1.4  互聯網、HTTP與HTML
    1.4.1  互聯網與HTTP
    1.4.2  HTML
  1.5  Hello, Spider!
    1.5.1  第一個爬蟲程序
    1.5.2  對爬蟲的思考
  1.6  調研網站
    1.6.1  網站的robots.txt與Sitemap
    1.6.2  查看網站所用技術
    1.6.3  查看網站所有者信息
    1.6.4  使用開發者工具檢查網頁
  1.7  本章小結
第2章  數據採集
  2.1  從抓取開始
  2.2  正則表達式
    2.2.1  初見正則表達式
    2.2.2  正則表達式的簡單使用
  2.3  BeautifulSoup
    2.3.1  安裝與上手
    2.3.2  BeautifulSoup的基本使用
  2.4  XPath與lxml
    2.4.1  XPath
    2.4.2  lxml與XPath的使用
  2.5  遍歷頁面
    2.5.1  抓取下一個頁面
    2.5.2  完成爬蟲
  2.6  使用API
    2.6.1  API簡介
    2.6.2  API使用示例
  2.7  本章小結
第3章  文件與數據存儲
  3.1  Python中的文件
    3.1.1  基本的文件讀寫
    3.1.2  序列化
  3.2  字元串
  3.3  Python與圖片

    3.3.1  PIL與Pillow
    3.3.2  Python與OpenCV簡介
  3.4  CSV文件
    3.4.1  CSV簡介
    3.4.2  CSV的讀寫
  3.5  使用資料庫
    3.5.1  使用MySQL
    3.5.2  使用SQLite
    3.5.3  使用SQLAlchemy
    3.5.4  使用Redis
  3.6  其他類型的文檔
  3.7  本章小結
第4章  JavaScript與動態內容
  4.1  JavaScript與AJAX技術
    4.1.1  JavaScript語言
    4.1.2  AJAX
  4.2  抓取AJAX數據
    4.2.1  分析數據
    4.2.2  數據提取
  4.3  抓取動態內容
    4.3.1  動態渲染頁面
    4.3.2  使用Selenium
    4.3.3  PyV8與Splash
  4.4  本章小結
第5章  表單與模擬登錄
  5.1  表單
    5.1.1  表單與POST
    5.1.2  POST發送表單數據
  5.2  Cookie
    5.2.1  什麼是Cookie
    5.2.2  在Python中使用Cookie
  5.3  模擬登錄網站
    5.3.1  分析網站
    5.3.2  通過Cookie模擬登錄
  5.4  驗證碼
    5.4.1  圖片驗證碼
    5.4.2  滑動驗證
  5.5  本章小結
第6章  數據的進一步處理
  6.1  Python與文本分析
    6.1.1  什麼是文本分析
    6.1.2  jieba與SnowNLP
    6.1.3  NLTK
    6.1.4  文本分類與聚類
  6.2  數據處理與科學計算
    6.2.1  從MATLAB到Python
    6.2.2  NumPy
    6.2.3  Pandas
    6.2.4  Matplotlib
    6.2.5  SciPy與SymPy

  6.3  本章小結
第7章  更靈活的爬蟲
  7.1  更靈活的爬蟲—以微信數據抓取為例
    7.1.1  用Selenium抓取Web微信信息
    7.1.2  基於Python的微信API工具
  7.2  更多樣的爬蟲
    7.2.1  在BeautifulSoup和XPath之外
    7.2.2  在線爬蟲應用平台
    7.2.3  使用urllib
  7.3  爬蟲的部署和管理
    7.3.1  配置遠程主機
    7.3.2  編寫本地爬蟲
    7.3.3  部署爬蟲
    7.3.4  查看運行結果
    7.3.5  使用爬蟲管理框架
  7.4  本章小結
第8章  瀏覽器模擬與網站測試
  8.1  關於測試
    8.1.1  什麼是測試
    8.1.2  什麼是TDD
  8.2  Python的單元測試
    8.2.1  使用unittest
    8.2.2  其他方法
  8.3  使用Python爬蟲測試網站
  8.4  使用Selenium測試
    8.4.1  Selenium測試常用的網站交互
    8.4.2  結合Selenium進行單元測試
  8.5  本章小結
第9章  更強大的爬蟲
  9.1  爬蟲框架
    9.1.1  Scrapy是什麼
    9.1.2  Scrapy安裝與入門
    9.1.3  編寫Scrapy爬蟲
    9.1.4  其他爬蟲框架
  9.2  網站反爬蟲
    9.2.1  反爬蟲的策略
    9.2.2  偽裝headers
    9.2.3  使用代理
    9.2.4  訪問頻率
  9.3  多進程與分散式
    9.3.1  多進程編程與爬蟲抓取
    9.3.2  分散式爬蟲
  9.4  本章小結
第10章  爬蟲實踐:火車票余票實時提醒
  10.1  程序設計
    10.1.1  分析網頁
    10.1.2  理解返回的JSON格式數據的意義
    10.1.3  微信消息推送
    10.1.4  運行並查看微信消息
  10.2  本章小結

第11章  爬蟲實踐:爬取二手房數據並繪製熱力圖
  11.1  數據抓取
    11.1.1  分析網頁
    11.1.2  地址轉換成經緯度
    11.1.3  編寫代碼
    11.1.4  數據下載結果
  11.2  繪製熱力圖
  11.3  本章小結
第12章  爬蟲實踐:免費IP代理爬蟲
  12.1  程序設計
    12.1.1  代理分類
    12.1.2  網站分析
    12.1.3  編寫爬蟲
    12.1.4  運行並查看結果
  12.2  本章小結
第13章  爬蟲實踐:百度文庫爬蟲
  13.1  程序設計
    13.1.1  分析網頁
    13.1.2  編寫爬蟲
    13.1.3  運行並查看爬取的百度文庫文件
  13.2  本章小結
第14章  爬蟲實踐:拼多多用戶評論數據爬蟲
  14.1  程序設計
    14.1.1  分析網頁
    14.1.2  編寫爬蟲
    14.1.3  運行並查看資料庫
  14.2  本章小結
第15章  爬蟲實踐:Selenium+PyQuery+ MongoDB爬取網易跟帖
  15.1  程序設計
    15.1.1  Selenium介紹
    15.1.2  分析網頁
    15.1.3  編寫爬蟲
    15.1.4  運行並查看MongoDB文件
  15.2  本章小結

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032