幫助中心 | 我的帳號 | 關於我們

Python網路爬蟲(從入門到精通數據科學與統計系列規劃教材)

  • 作者:編者:呂雲翔|責編:孫燕燕
  • 出版社:人民郵電
  • ISBN:9787115611901
  • 出版日期:2023/07/01
  • 裝幀:平裝
  • 頁數:196
人民幣:RMB 49.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書主要介紹如何使用Python語言進行網路爬蟲程序的開發,從Python語言的基本特性入手,詳細介紹Python網路爬蟲開發的多個方面,涉及HTTP、HTML、正則表達式、JavaScript、自然語言處理、數據處理與科學計算等不同領域的內容。全書共12章,包括基礎篇、進階篇、提高篇和實戰篇4個部分。基礎篇包括第1、2、3章,分別為Python基礎及網路爬蟲、靜態網頁抓取、數據存儲。進階篇包括第4、5、6章,分別為JavaScript與動態內容、模擬登錄與驗證碼、爬蟲數據的分析與處理。提高篇包括第7、8、9章,分別為爬蟲的靈活性和多樣性、Selenium模擬瀏覽器與網站測試、爬蟲框架Scrapy與反爬蟲。實戰篇提供了3個實戰項目供讀者學習參考。本書內容覆蓋網路數據抓取與爬蟲編程中的主要知識和前沿技術。同時,本書在重視理論基礎的前提下,從實用性和豐富度出發,結合實例演示爬蟲程序編寫的核心流程,將理論與實踐結合,力求提高讀者的網路爬蟲實操技能。
    本書可作為高等院校數據科學、統計學、電腦科學、軟體工程等相關專業課程的教材,也可作為Python語言初學者、網路爬蟲技術愛好者的參考書。

作者介紹
編者:呂雲翔|責編:孫燕燕

目錄
基礎篇
  第1章  Python基礎及網路爬蟲
    1.1  了解Python語言
      1.1.1  Python是什麼
      1.1.2  Python的應用現狀
    1.2  配置安裝Python開發環境
      1.2.1  在Windows上安裝
      1.2.2  在Ubuntu和macOS上安裝
      1.2.3  IDE的使用:以PyCharm為例
      1.2.4  Jupyter Notebook簡介
    1.3  Python基礎知識
      1.3.1  「Hello, World!」與數據類型
      1.3.2  邏輯語句
      1.3.3  Python中的函數與類
      1.3.4  更深入了解Python
    1.4  互聯網、HTTP與HTML
      1.4.1  互聯網與HTTP
      1.4.2  HTML
    1.5  Hello Spider
      1.5.1  編寫第一個爬蟲程序
      1.5.2  對爬蟲的思考
    1.6  分析網站
      1.6.1  robots.txt與Sitemap簡介
      1.6.2  網站技術分析
      1.6.3  網站所有者信息分析
      1.6.4  使用開發者工具檢查目標網頁
    章節實訓:Python環境的配置與爬蟲的運行
    思考與練習
  第2章  靜態網頁抓取
    2.1  從抓取開始
    2.2  正則表達式
      2.2.1  什麼是正則表達式
      2.2.2  正則表達式的簡單使用
    2.3  BeautifulSoup爬蟲
      2.3.1  安裝BeautifulSoup
      2.3.2  BeautifulSoup的基本用法
    2.4  XPath與lxml
      2.4.1  XPath
      2.4.2  lxml與XPath的使用
    2.5  遍歷頁面
      2.5.1  抓取下一個頁面
      2.5.2  完成爬蟲
    2.6  使用API
      2.6.1  API簡介
      2.6.2  API使用示例
    章節實訓:嗶哩嗶哩直播間信息抓取練習
    思考與練習
  ……
進階篇
提高篇

實戰篇
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032