幫助中心 | 我的帳號 | 關於我們

從零開始學Python網路爬蟲

  • 作者:編者:羅攀//蔣仟
  • 出版社:機械工業
  • ISBN:9787111579991
  • 出版日期:2017/10/01
  • 裝幀:平裝
  • 頁數:263
人民幣:RMB 59 元      售價:
放入購物車
加入收藏夾

內容大鋼
    Python是數據分析的語言,而網路中的數據和信息很多,如何從中獲取需要的數據和信息呢?簡單、直接的方法就是用爬蟲技術來解決。
    羅攀、蔣仟編著的《從零開始學Python網路爬蟲》是一本教初學者學習如何爬取網路數據和信息的入門讀物。書中不僅有Python的相關內容,而且還有數據處理和數據挖掘等方面的內容。本書內容非常實用,講解時穿插了22個爬蟲實戰案例,可以大大提高讀者的實際動手能力。
    本書共分12章,核心主題包括Python零基礎語法入門、爬蟲原理和網頁構造、我的第一個爬蟲程序、正則表達式、Lxml庫與Xpath語法、使用API、資料庫存儲、多進程爬蟲、非同步載入、表單交互與模擬登錄、Selenium模擬瀏覽器、Scrapy爬蟲框架。此外,書中通過一些典型爬蟲案例,講解了有經緯信息的地圖圖表和詞雲的製作方法,讓讀者體驗數據背後的樂趣。
    本書適合爬蟲技術初學者、愛好者及高等院校的相關學生,也適合數據爬蟲工程師作為參考讀物,同時也適合各大Python數據分析的培訓機構作為教材使用。

作者介紹
編者:羅攀//蔣仟

目錄
前言
第1章 Python零基礎語法入門
  1.1 Python與PyCharm安裝
    1.1.1 Python安裝(Windows、Mac和Linux)
    1.1.2 PyCharm安裝
  1.2 變數和字元串
    1.2.1 變數
    1.2.2 字元串的「加法」和「乘法」
    1.2.3 字元串的切片和索引
    1.2.4 字元串方法
  1.3 函數與控制語句
    1.3.1 函數
    1.3.2 判斷語句
    1.3.3 循環語句
  1.4 Python數據結構
    1.4.1 列表
    1.4.2 字典
    1.4.3 元組和集合
  1.5 Python文件操作
    1.5.1 打開文件
    1.5.2 讀寫文件
    1.5.3 關閉文件
  1.6 Python面向對象
    1.6.1 定義類
    1.6.2 實例屬性
    1.6.3 實例方法
    1.6.4 類的繼承
第2章 爬蟲原理和網頁構造
  2.1 爬蟲原理
    2.1.1 網路連接
    2.1.2 爬蟲原理
  2.2 網頁構造
    2.2.1 Chrome瀏覽器的安裝
    2.2.2 網頁構造
    2.2.3 查詢網頁信息
第3章 我的第一個爬蟲程序
  3.1 Python第三方庫
    3.1.1 Python第三方庫的概念
    3.1.2 Python第三方庫的安裝方法
    3.1.3 Python第三方庫的使用方法
  3.2 爬蟲三大庫
    3.2.1 Requests庫
    3.2.2 BeautifulSoup庫
    3.2.3 Lxml庫
  3.3 綜合案例1——爬取北京地區短租房信息
    3.3.1 爬蟲思路分析
    3.3.2 爬蟲代碼及分析
    3.4.綜合案例2——爬取酷狗TOP500的數據
    3.4.1 爬蟲思路分析
    3.4.2 爬蟲代碼及分析

第4章 正則表達式
  4.1 正則表達式常用符號
    4.1.1 一般字元
    4.1.2 預定義字符集
    4.1.3 數量詞
    4.1.4 邊界匹配
  4.2 re模塊及其方法
    4.2.1 search()函數
    4.2.2 sub()函數
    4.2.3 findallfl函數
    4.2.4 re模塊修飾符
  4.3 綜合案例1——爬取《斗破蒼穹》全文小說
    4.3.1 爬蟲思路分析
    4.3.2 爬蟲代碼及分析
  4.4 綜合案例2——爬取糗事百科網的段子信息
    4.4.1 爬蟲思路分析
    4.4.2 爬蟲代碼及分析
第5章 Lxml庫與Xpath語法l
  5.1 Lxml庫的安裝與使用方法
    5.1.1 Lxml庫的安裝(Mac、Linux)
    5.1.2 Lxml庫的使用
  5.2 Xpath語法
    5.2.1 節點關係
    5.2.2 節點選擇
    5.2.3 使用技巧
    5.2.4 性能對比
  5.3 綜合案例1——爬取豆瓣網圖書TOP250的數據
    5.3.1 將數據存儲到CSV文件中
    5.3.2 爬蟲思路分析
    5.3.3 爬蟲代碼及分析
  5.4 綜合案例2——爬取起點中文網小說信息
    5.4.1 將數據存儲到Excel文件中
    5.4.2 爬蟲思路分析
    5.4.3 爬蟲代碼及分析
第6章 使用API
  6.1 API的使用
    6.1.1 API概述
    6.1.2 API使用方法
    6.1.3 API驗證
  6.2 解析JSON數據
    6.2.1 JSON解析庫
    6.2.2 斯必克API調用
    6.2.3 百度地圖API調用
  6.3 綜合案例1——爬取PEXELS圖片
    6.3.1 圖片爬取方法
    6.3.2 爬蟲思路分析
    6.3.3 爬蟲代碼及分析
  6.4 綜合案例2——爬取糗事百科網的用戶地址信息
    6.4.1 地圖的繪製
    6.4.2 爬取思路分析

    6.4.3 爬蟲代碼及分析
第7章 資料庫存儲
  7.1 MongoDB資料庫
    7.1.1 NoSQL概述
    7.1.2 MongoDB的安裝
    7.1.3 MongoDB的使用
  7.2 MySQL資料庫
    7.2.1 關係型資料庫概述
    7.2.2 MySQI。的安裝
    7.2.3 MySQL的使用
  7.3 綜合案例1——爬取豆瓣音樂TOP250的數據
    7.3.1 爬蟲思路分析
    7.3.2 爬蟲代碼及分析
  7.4 綜合案例2——爬取豆瓣電影TOP250的數據
    7.4.1 爬蟲思路分析
    7.4.2 爬蟲代碼及分析
第8章 多進程爬蟲
  8.1 多線程與多進程
    8.1.1 多線程和多進程概述
    8.1.2 多進程使用方法
    8.1.3 性能對比
  8.2 綜合案例1——爬取簡書網熱評文章
    8.2.1 爬蟲思路分析
    8.2.2 爬蟲代碼及分析
  8.3 綜合案例2——爬取轉轉網二手市場商品信息
    8.3.1 爬蟲思路分析
    8.3.2 爬蟲代碼及分析
第9章 非同步載入
  9.1 非同步載入技術與爬蟲方法
    9.1.1 非同步載入技術概述
    9.1.2 非同步載入網頁示例
    9.1.3 逆向工程
  9.2 綜合案例1——爬取簡書網用戶動態信息
    9.2.1 爬蟲思路分析
    9.2.2 爬蟲代碼及分析
  9.3 綜合案例2——爬取簡書網7日熱門信息
    9.3.1 爬蟲思路分析
    9.3.2 爬蟲代碼及分析
第10章 表單交互與模擬登錄
  10.1 表單交互
    10.1.1 POST方法
    10.1.2 查看網頁源代碼提交表單
    10.1.3 逆向工程提交表單
  10.2 模擬登錄
    10.2.1 Cookie概述
    10.2.2 提交Cookie模擬登錄
  1013綜合案例1——爬取拉勾網招聘信息
    10.3.1 爬蟲思路分析
    10.3.2 爬蟲代碼及分析
  10.4 綜合案例2——爬取新浪微博好友圈信息

    10.4.1 詞雲製作
    10.4.2 爬蟲思路分析
    10.4.3 爬蟲代碼及分析
第11章 SeIonium模擬瀏覽器
  11.1 Selenium和PhantomJS
    11.1.1 Selenium的概念和安裝
    11.1.2 瀏覽器的選擇和安裝
  11.2 Selenium和PhantomJS的配合使用
    11.2.1 模擬瀏覽器操作
    11.2.2 獲取非同步載入數據
  11.3 綜合案例1——爬取QQ空問好友說說
  11.3.1 CSV文件讀取
    11.3.2 爬蟲思路分析
    11.3.3 爬蟲代碼及分析
  11.4 綜合案例2——爬取淘寶商品信息
    11.4.1 爬蟲思路分析
    11.4.2 爬蟲代碼及分析
第12章 Serapy爬蟲框架
  12.1 Scrapy的安裝和使用
    12.1.1 Scrapy的安裝
    12.1.2 創建Scrapy項目
    12.1.3 Scrapy文件介紹
    12.1.4 Scrapy爬蟲編寫
    12.1.5 Scrapy爬蟲運行
  12.2 綜合案例1——爬取簡書網熱門專題信息
    12.2.1 爬蟲思路分析
    12.2.2 爬蟲代碼及分析
  12.3 綜合案例2——爬取知乎網Python精華話題
    12.3.1 爬蟲思路分析
    12.3.2 爬蟲代碼及分析
  12.4 綜合案例3——爬取簡書網專題收錄文章
    12.4.1 爬蟲思路分析
    12.4.2 爬蟲代碼及分析
  12.5 綜合案例4——爬取簡書網推薦信息
    12.5.1 爬蟲思路分析
    12.5.2 爬蟲代碼及分析

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032