幫助中心 | 我的帳號 | 關於我們

Python網路爬蟲技術(第2版微課版大數據應用開發Python1+X職業技能等級證書配套系列教材)

  • 作者:編者:池瑞楠//張良均|責編:趙亮
  • 出版社:人民郵電
  • ISBN:9787115625052
  • 出版日期:2023/10/01
  • 裝幀:平裝
  • 頁數:208
人民幣:RMB 49.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書以項目為導向,以任務為驅動,較為全面地介紹了不同場景、不同平台使用Python爬取網路數據的方法,涉及靜態網頁、動態網頁、登錄后才能訪問的網頁、PC客戶端、App客戶端等。全書共7個項目,項目1介紹爬蟲與反爬蟲的基本概念,以及Python爬蟲環境的配置;項目2介紹爬取過程中涉及的網頁基礎知識;項目3介紹在靜態網頁中爬取數據的過程;項目4介紹在動態網頁中爬取數據的過程;項目5介紹對登錄后才能訪問的網頁進行模擬登錄的方法;項目6介紹爬取PC客戶端和App客戶端數據的方法;項目7介紹使用Scrapy爬蟲框架爬取數據的過程。本書所有項目都包含實訓與課後習題,通過練習和操作實戰,讀者可鞏固所學的內容。
    本書可以作為「1+X」證書制度試點工作中的大數據應用開發(Python)職業技能等級證書(中級)的參考書,也可以作為高校大數據技術類專業的教材和大數據技術愛好者的自學用書。

作者介紹
編者:池瑞楠//張良均|責編:趙亮

目錄
項目1  了解爬蟲與Python爬蟲環境
  【項目背景】
  【學習目標】
  【思維導圖】
  任務1.1  認識爬蟲
    1.1.1  爬蟲的概念
    1.1.2  爬蟲的原理
    1.1.3  爬蟲的合法性與robots協議
  任務1.2  認識反爬蟲
    1.2.1  網站反爬蟲的目的與手段
    1.2.2  爬取策略制定
  任務1.3  配置Python爬蟲環境
    1.3.1  配置PyCharm
    1.3.2  Python爬蟲相關庫介紹與配置
    1.3.3  配置MySQL資料庫
    1.3.4  配置MongoDB資料庫
  【小結】
  【實訓】
    實訓  Python爬蟲環境配置
  【思考題】
  【課後習題】
項目2  爬蟲基礎知識準備
  【項目背景】
  【學習目標】
  【思維導圖】
  任務2.1  認識網頁基礎
    2.1.1  了解網頁開發技術
    2.1.2  了解網頁的結構
    2.1.3  了解網頁的分類
    2.1.4  了解網頁的數據結構
  任務2.2  認識HTTP
    2.2.1  熟悉HTTP請求方法與過程
    2.2.2  熟悉常見HTTP狀態碼
    2.2.3  熟悉HTTP頭部信息
    2.2.4  熟悉Cookie
  【小結】
  【實訓】
    實訓1  創建一個簡單的網頁文件
    實訓2  訪問網站並查看請求和響應信息
  【思考題】
  【課後習題】
項目3  簡單靜態網頁爬取—獲取某企業官網基本信息
  【項目背景】
  【學習目標】
  【思維導圖】
  任務3.1  實現HTTP請求
    3.1.1  使用Chrome開發者工具查看網頁
    3.1.2  使用urllib 3庫實現
    3.1.3  使用Requests庫實現
  任務3.2  解析網頁

    3.2.1  使用Xpath解析網頁
    3.2.2  使用Beautiful Soup庫解析網頁
    3.2.3  使用正則表達式解析網頁
  任務3.3  數據存儲
    3.3.1  將數據存儲為JSON文件
    3.3.2  將數據存儲到MySQL資料庫
  【小結】
  【實訓】
    實訓1  生成GET請求並獲取指定網頁內容
    實訓2  搜索目標節點並提取文本內容
    實訓3  在資料庫中建立新表並導入數據
  【思考題】
  【課後習題】
項目4  爬取動態網頁——獲取圖書基本信息
  【項目背景】
  【學習目標】
  【思維導圖】
  任務4.1  逆向分析爬取動態網頁
    4.1.1  判別網頁類型
    4.1.2  獲取動態網頁信息
  任務4.2  使用Selenium庫爬取動態網頁
    4.2.1  安裝Selenium庫及下載瀏覽器驅動
    4.2.2  打開瀏覽對象並訪問頁面
    4.2.3  元素選取
    4.2.4  元素交互
    4.2.5  頁面操作
    4.2.6  頁面等待
  任務4.3  存儲數據至MongoDB資料庫
    4.3.1  MongoDB資料庫和MySQL資料庫的區別
    4.3.2  將數據存儲到MongoDB資料庫
  【小結】
  【實訓】
    實訓1  生成GET請求並獲取指定網頁內容
    實訓2  搜索目標節點並提取文本內容
  【思考題】
  【課後習題】
項目5  模擬登錄——登錄某企業官網
  【項目背景】
  【學習目標】
  【思維導圖】
  任務5.1  使用表單登錄方法實現模擬登錄
    5.1.1  查找提交入口
    5.1.2  查找並獲取需要提交的表單數據
    5.1.3  使用POST請求方法登錄
  任務5.2  使用Cookie登錄方法實現模擬登錄
    5.2.1  使用瀏覽器Cookie登錄
    5.2.2  基於表單登錄的Cookie登錄
  【小結】
  【實訓】
    實訓1  使用表單登錄方法模擬登錄古詩文網

    實訓2  使用瀏覽器Cookie模擬登錄古詩文網
    實訓3  基於表單登錄后的Cookie模擬登錄古詩文網
  【思考題】
  【課後習題】
項目6  終端協議分析——獲取某音樂PC客戶端和APP數據
  【項目背景】
  【學習目標】
  【思維導圖】
  任務6.1  分析PC客戶端抓包
    6.1.1  了解HTTP Analyzer工具
    6.1.2  爬取酷我音樂PC客戶端數據
  任務6.2  分析App抓包
    6.2.1  了解Fiddler工具
    6.2.2  分析酷我音樂App
  【小結】
  【實訓】
    實訓1  抓取酷我音樂PC客戶端的推薦歌曲信息
    實訓2  監控朴朴超市商品實時價格
  【思考題】
  【課後習題】
項目7  使用Scrapy爬蟲——爬取某企業官網新聞動態
  【項目背景】
  【學習目標】
  【思維導圖】
  任務7.1  認識Scrapy
    7.1.1  了解Scrapy爬蟲框架
    7.1.2  熟悉Scrapy常用命令
  任務7.2  通過Scrapy爬取文本信息
    7.2.1  創建Scrapy爬蟲項目
    7.2.2  修改items/pipelines腳本
    7.2.3  編寫spider腳本
    7.2.4  修改settings腳本
  任務7.3  定製中間件
    7.3.1  定製下載器中間件
    7.3.2  定製Spider中間件
  【小結】
  【實訓】
    實訓1  爬取「http://www.tipdm.org」的所有新聞動態
    實訓2  定製BdRaceNews爬蟲項目的中間件
    實訓3  爬取貓眼電影「https://maoyan.com/board/4」的影片信息
    實訓4  配置Maoyan100爬蟲項目的設置文件
  【思考題】
  【課後習題】

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032