幫助中心 | 我的帳號 | 關於我們

網路爬蟲項目實踐(高職高專大數據技術專業系列教材)

  • 作者:編者:李程文//唐建生//馮欣悅|責編:明政珠//孟秋黎
  • 出版社:西安電子科大
  • ISBN:9787560664613
  • 出版日期:2023/05/01
  • 裝幀:平裝
  • 頁數:182
人民幣:RMB 30 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書基於實際工作過程採用任務驅動的方式編寫。全書共四個項目。每個項目包含三個任務。教學內容由淺入深,所有的理論知識都通過項目得以貫通,每個項目都包含若幹個任務,每個任務從「任務目標-任務描述-任務實施-實踐訓練」四個環節入手,環環相扣,層層遞進,集「教-學-做」于一體,適合教師循序漸進的教學方式和讀者的自主學習方式。每個任務的選擇都是從實際工作過程出發,通過實際操作指導學生解決問題,調動學生學習的積極性,使學生能較全面地掌握不同場景下Python爬取網路數據的方法和技能。
    本書讀者對象為:初學編程的自學者,大中專院校的老師和學生,相關培訓機構的老師和學員,初中級程序開發人員和程序測試及維護人員。

作者介紹
編者:李程文//唐建生//馮欣悅|責編:明政珠//孟秋黎

目錄
項目一 網頁數據獲取
  任務1.1  讀書網信息爬取
    1.1.1  網頁結構分析
    1.1.2  第三方庫安裝
    1.1.3  解決爬蟲中文亂碼的問題
    1.1.4  網頁數據爬取
  任務1.2  今日頭條數據爬取
    1.2.1  網頁數據爬取
    1.2.2  獲取搜索結果詳情
    1.2.3  解析詳情頁數據
    1.2.4  保存數據
  任務1.3  京東動態渲染頁面的信息爬取
    1.3.1  網頁結構分析
    1.3.2  第三方庫安裝
    1.3.3  搜索關鍵字
    1.3.4  分析頁面並翻頁
    1.3.5  分析提取商品內容
    1.3.6  保存信息至MongoDB
項目二 特殊網頁數據獲取
  任務2.1  數睿思網模擬登錄
    2.1.1  查找提交入口
    2.1.2  查找並獲取需要提交的表單數據
    2.1.3  使用post請求方法登錄
  任務2.2  古詩詞網數據爬取
    2.2.1  Tesseract引擎的下載和安裝
    2.2.2  第三方庫安裝
    2.2.3  驗證碼識別
    2.2.4  完成登錄
  任務2.3  微信網頁代理爬蟲文章信息
    2.3.1  網頁結構分析
    2.3.2  使用Flask + Redis維護代理池
    2.3.3  爬取索引頁內容
    2.3.4  設置代理
    2.3.5  分析詳情頁內容
    2.3.6  保存數據信息至MongoDB
項目三 Scrapy框架爬蟲
  任務3.1  噹噹網商品爬取
    3.1.1  創建Scrapy項目
    3.1.2  商品數據爬取
    3.1.3  商品數據處理
  任務3.2  登錄趕集網
    3.2.1  創建爬蟲項目
    3.2.2  獲取表單HashCode
    3.2.3  獲取驗證碼
    3.2.4  編寫代碼
  任務3.3  失信人信息爬取
    3.3.1  創建爬蟲項目
    3.3.2  定義數據模型
    3.3.3  爬取失信人名單
    3.3.4  保存失信人名單信息

    3.3.5  下載器中間件
項目四 分散式爬蟲
  任務4.1  環境搭建
    4.1.1  安裝VMware虛擬機
    4.1.2  安裝Linux
    4.1.3  虛擬機網路設置
    4.1.4  安裝Python
    4.1.5  安裝分散式框架
    4.1.6  克隆虛擬機
    4.1.7  安裝Redis資料庫
  任務4.2  某事百科段子爬取
    4.2.1  創建Scrapy項目
    4.2.2  爬取網頁數據
    4.2.3  分散式爬取
  任務4.3  鏈家網內容爬取
    4.3.1  創建Scrapy項目
    4.3.2  爬取網頁數據
    4.3.3  數據存儲
    4.3.4  分散式爬取
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032