幫助中心 | 我的帳號 | 關於我們

Python爬蟲大數據採集與挖掘(第2版微課視頻版題庫版國家級實驗教學示範中心聯席會電腦學科組十四五規劃教材)/大數據與人工智慧技術叢書

  • 作者:編者:曾劍平|責編:王冰飛//吳彤雲
  • 出版社:清華大學
  • ISBN:9787302678250
  • 出版日期:2025/02/01
  • 裝幀:平裝
  • 頁數:286
人民幣:RMB 59.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書圍繞大數據採集與挖掘,對採集技術的相關基礎、技術原理、Python實現技術、大數據挖掘與應用方法進行了系統介紹。書中全面、完整地覆蓋了各種類型的網路爬蟲及相關的信息處理挖掘技術,並提供了45個與爬蟲技術和應用相關的Python程序。全書共分為四部分,即概述、基礎篇、技術與實現篇、大數據挖掘與應用篇。第一部分(第1章)是概述,指出利用Python採集互聯網大數據的重要性,介紹了相關技術研究、技術體系、採集技術的合規性及應用現狀等,分析了大模型對互聯網大數據技術的影響;第二部分(第2、3章)是基礎篇,包括Web伺服器的應用架構以及HTTP、Robots、HTML、頁面編碼等相關協議和規範;第三部分(第4?10章)是技術與實現篇,全面介紹普通網路爬蟲技術、動態頁面採集方法、主題爬蟲技術、Deep Web爬蟲、微博信息採集、Web信息提取以及反爬蟲技術等,內容涵蓋各種爬蟲技術實現方法及Python實例;第四部分(第11、12章)是大數據挖掘與應用篇,介紹文本、情感、社交網路和時間序列等典型大數據處理與挖掘技術及應用模式,並以新聞輿情監測、Web自動化測試、酒店評論文本挖掘為例介紹Python爬蟲應用構建方法,將本書介紹的一些關鍵技術、模型和工具貫穿在一起。
    本書可作為高等院校大數據,電腦、信息以及經管?金融等相關專業的教材﹐也可作為大數據、電腦、信息以及經管、金融等領域研究人員和專業技術人員的參考書。

作者介紹
編者:曾劍平|責編:王冰飛//吳彤雲

目錄
第一部分  概述
  第1章  大數據採集與挖掘概述
    1.1  互聯網大數據與採集
      1.1.1  互聯網大數據來源
      1.1.2  互聯網大數據的特徵
    1.2  Python爬蟲大數據採集技術的重要性
    1.3  爬蟲技術研究及應用現狀
    1.4  爬蟲技術的應用場景
    1.5  爬蟲大數據採集與挖掘的技術體系
      1.5.1  技術體系構成
      1.5.2  相關技術
      1.5.3  爬蟲的5個技術特性
      1.5.4  技術評價方法
    1.6  爬蟲大數據採集與挖掘的合規性
    1.7  爬蟲大數據採集與挖掘技術展望
      1.7.1  爬蟲採集技術展望
      1.7.2  大模型對互聯網大數據技術的影響
    思考題
第二部分  基礎篇
  第2章  Web頁面及相關處理技術
    2.1  HTML規範
      2.1.1  HTML標籤
      2.1.2  HTML整體結構
      2.1.3  CSS簡述
      2.1.4  常用標籤
      2.1.5  HTML的版本進化
    2.2  編碼體系與規範
      2.2.1  ASCII
      2.2.2  gb2312/gbk
      2.2.3  unicode
      2.2.4  utf?8
      2.2.5  網頁中的編碼和Python處理
    2.3  Python正則表達式
    2.4  相關的Python程序基礎
    思考題
  第3章  Web應用架構與協議
    3.1  常用的Web伺服器軟體
      3.1.1  流行的Web伺服器軟體
      3.1.2  在Python中配置Web伺服器
    3.2  Web伺服器的應用架構
      3.2.1  典型應用架構
      3.2.2  Web頁面的類型
      3.2.3  頁面文件的組織方式
    3.3  Robots協議
      3.3.1  Robots協議的來歷
      3.3.2  Robots協議的規範與實現
    3.4  HTTP
      3.4.1  HTTP版本的技術特性
      3.4.2  HTTP報文
      3.4.3  HTTP頭部

      3.4.4  HTTP狀態碼
      3.4.5  HTTPS
    3.5  狀態保持技術
      3.5.1  Cookie
      3.5.2  Session
    思考題
第三部分  技術與實現篇
  第4章  普通爬蟲頁面採集技術與Python實現
    4.1  普通爬蟲的體系架構
    4.2  Web伺服器連接器
      4.2.1  整體處理過程
      4.2.2  DNS緩存
      4.2.3  requests/response的使用方法
      4.2.4  錯誤和異常的處理
    4.3  超鏈接及域名提取與過濾
      4.3.1  超鏈接的類型
      4.3.2  提取方法
      4.3.3  遵守Robots協議的友好爬蟲
    4.4  爬行策略與實現
      4.4.1  爬行策略及設計方法
      4.4.2  深度優先策略和寬度優先策略
      4.4.3  基於PageRank的重要性排序
      4.4.4  其他策略
      4.4.5  爬行策略設計的綜合考慮
    4.5  爬蟲的多線程技術
    思考題
  第5章  動態頁面採集技術與Python實現
    5.1  動態頁面內容的生成與交互
      5.1.1  頁面內容的生成方式
      5.1.2  動態頁面交互的實現
    5.2  動態頁面採集技術類型
    5.3  使用帶參數的URL
    5.4  利用Cookie和Session
    5.5  使用Ajax——以評論型頁面為例
      5.5.1  獲取URL地址
      5.5.2  獲取併發送動態請求參數
    5.6  模擬瀏覽器——以自動登錄郵箱為例
    思考題
  第6章  Web信息提取與Python實現
    6.1  Web信息提取任務及要求
    6.2  Web頁面內容提取的思路
      6.2.1  DOM樹
      6.2.2  提取方法
    6.3  基於HTML結構的內容提取方法
      6.3.1  html.parser
      6.3.2  lxml
      6.3.3  html5lib
      6.3.4  BeautifulSoup
      6.3.5  PyQuery
    6.4  基於統計的Web內容提取方法

    6.5  基於JSON的Web信息提取
    6.6  Web信息存儲
    思考題
  第7章  主題爬蟲頁面採集技術與Python實現
    7.1  主題爬蟲的使用場景
    7.2  主題爬蟲技術框架
    7.3  主題及其表示
    7.4  相關度計算
      7.4.1  主題相關度計算
      7.4.2  鏈接相關度估算
      7.4.3  內容相關度計算
    7.5  實例:特定新聞主題的採集
    思考題
  第8章  Deep Web爬蟲與Python實現
    8.1  相關概念
    8.2  Deep Web的特徵和採集要求
    8.3  Deep Web內容獲取技術架構
      8.3.1  領域本體知識庫
      8.3.2  尋找表單
      8.3.3  表單處理
      8.3.4  結果處理
    8.4  圖書信息採集
    思考題
  第9章  微博信息採集與Python實現
    9.1  微博信息採集方法概述
    9.2  微博開放平台授權與測試
    9.3  在Python中調用微博API採集數據
      9.3.1  流程介紹
      9.3.2  微博API及使用方法
      9.3.3  採集微博用戶個人信息
      9.3.4  採集微博博文
      9.3.5  微博API的限制
    9.4  通過爬蟲採集微博信息
      9.4.1  爬蟲採集微博的方法
      9.4.2  微博熱搜的採集方法與Python實現
    思考題
  第10章  反爬蟲技術與爬蟲對抗技術
    10.1  兩種技術的概述
    10.2  反爬蟲技術
      10.2.1  爬蟲檢測技術
      10.2.2  爬蟲阻斷技術
    10.3  爬蟲對抗技術
    思考題
第四部分  大數據挖掘與應用篇
  第11章  互聯網大數據處理與挖掘技術
    11.1  文本預處理
      11.1.1  辭彙切分
      11.1.2  停用詞過濾
      11.1.3  詞形規範化
      11.1.4  Python開源庫jieba的使用

    11.2  文本的向量空間模型
      11.2.1  特徵選擇
      11.2.2  模型表示
      11.2.3  使用Python構建向量空間表示
    11.3  文本的分散式表示
      11.3.1  相關方法
      11.3.2  Doc2Vec
    11.4  文本分類及實現技術
      11.4.1  分類技術概要
      11.4.2  分類器技術
      11.4.3  新聞分類的Python實現
    11.5  聚類演算法
    11.6  主題及其實現技術
      11.6.1  主題的定義
      11.6.2  基於向量空間的主題構建
      11.6.3  LDA主題模型
      11.6.4  LDA主題模型的Python實現
    11.7  文本情感分析
      11.7.1  基於機器學習的方法
      11.7.2  基於規則的方法
    11.8  社交網路分析
      11.8.1  社交網路表示與可視化
      11.8.2  社區發現演算法與使用
      11.8.3  分析工具Pajek
    11.9  時間序列挖掘
      11.9.1  時間序列及其挖掘任務
      11.9.2  時間序列預測的思路
      11.9.3  時間序列預測的例子
    11.10  大數據可視化技術
      11.10.1  大數據可視化方法概述
      11.10.2  Python開源庫的使用
    思考題
  第12章  互聯網大數據採集與挖掘技術的應用
    12.1  常見應用模式
    12.2  新聞輿情監測
      12.2.1  目標任務
      12.2.2  總體思路
      12.2.3  新聞內容採集與提取
      12.2.4  新聞分析
    12.3  Web網站自動化測試
      12.3.1  目標任務
      12.3.2  總體思路
      12.3.3  Python程序設計
    12.4  酒店評論文本挖掘
      12.4.1  目標任務
      12.4.2  總體思路
      12.4.3  Python程序設計
    思考題
附錄A  代碼與數據
附錄B  相關包索引

附錄C  爬蟲框架
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032