幫助中心 | 我的帳號 | 關於我們

網路爬蟲原理與實踐(基於C#語言)/數據科學與工程技術叢書

  • 作者:李健//種惠芳|責編:曲熠//顧謙
  • 出版社:機械工業
  • ISBN:9787111716945
  • 出版日期:2023/01/01
  • 裝幀:平裝
  • 頁數:265
人民幣:RMB 79 元      售價:
放入購物車
加入收藏夾

內容大鋼
    《網路爬蟲原理與實踐(基於C#語言)/數據科學與工程技術叢書》內容簡明,由淺入深。本書圍繞網路爬蟲的核心環節介紹其基本原理和實現方法,並進行適當的功能擴展。本書篇幅適中,適合初學者閱讀和學習。
    實例豐富,代碼翔實。本書選擇了邏輯簡明、功能完整的典型實例,從需求、設計、實現的角度進行系統性介紹,並且提供實例的主要代碼和關鍵代碼的詳細註釋,讀者可應用這些代碼進行實踐。
    讀者可通過機械工業出版社網站獲取本書案例的源代碼和相關資源,在不斷實踐中掌握網路爬蟲開發的技術。

作者介紹
李健//種惠芳|責編:曲熠//顧謙

目錄
前言
第1章  網路爬蟲概述
  1.1  網路基礎
    1.1.1  網路的基本概念
    1.1.2  HTTP
    1.1.3  會話機制
  1.2  網頁知識
    1.2.1  HTML
    1.2.2  CSS
    1.2.3  JavaScript
  1.3  網路爬蟲的原理
    1.3.1  網路爬蟲概述
    1.3.2  Robots協議
    1.3.3  網路爬蟲框架
第2章  C#編程基礎
  2.1  C#語言概述
    2.1.1  C#與.NET框架
    2.1.2  開發環境
    2.1.3  語言生態
  2.2  數據和運算
    2.2.1  C#數據類型
    2.2.2  常用運算符
  2.3  流程式控制制
    2.3.1  分支結構
    2.3.2  循環結構
  2.4  常用數據結構
    2.4.1  字元串
    2.4.2  數組
    2.4.3  列表
    2.4.4  字典
第3章  網路資源下載
  3.1  同步下載
    3.1.1  網頁下載
    3.1.2  編碼檢測
    3.1.3  參數設置
  3.2  非同步下載
    3.2.1  實現方式
    3.2.2  性能分析
  3.3  通用資源下載器
    3.3.1  下載器的設計
    3.3.2  下載器的實現
第4章  網頁數據抽取
  4.1  正則表達式抽取
    4.1.1  正則表達式簡介
    4.1.2  使用Regex類
  4.2  XPath抽取
    4.2.1  XPath簡介
    4.2.2  使用HtmlAgilityPack
  4.3  HTML解析器
  4.4  綜合實例:新聞資訊爬蟲

    4.4.1  爬蟲設計
    4.4.2  爬蟲實現
第5章  其他數據抽取
  5.1  XML數據抽取
    5.1.1  XML簡介
    5.1.2  使用System.Xml
  5.2  JSON數據抽取
    5.2.1  JSON簡介
    5.2.2  使用Newtonsoft.Json
  5.3  綜合實例1:天氣爬蟲
    5.3.1  問題描述與分析
    5.3.2  爬蟲設計
    5.3.3  爬蟲實現
  5.4  綜合實例2:音樂爬蟲
    5.4.1  問題描述
    5.4.2  逆向分析
    5.4.3  爬蟲設計
    5.4.4  爬蟲實現
第6章  數據存儲
  6.1  數據的維度
  6.2  文件存儲
    6.2.1  低維數據存儲
    6.2.2  高維數據存儲
  6.3  資料庫存儲
    6.3.1  MySQL的安裝和配置
    6.3.2  將數據存入MySQL
第7章  爬蟲控制
  7.1  爬蟲搜索方式
    7.1.1  深度優先搜索
    7.1.2  廣度優先搜索
    7.1.3  性能分析
  7.2  爬蟲控制器
    7.2.1  控制器設計
    7.2.2  控制器的實現
    7.2.3  實時控制器
  7.3  綜合實例:站內文章爬蟲
    7.3.1  爬蟲設計
    7.3.2  爬蟲實現
    7.3.3  爬蟲測試
第8章  多線程爬蟲
  8.1  多線程機制
    8.1.1  Thread對象
    8.1.2  BackgroundWorker控制項
    8.1.3  系統線程池
  8.2  多線程爬蟲
    8.2.1  實現方法
    8.2.2  性能對比
  8.3  自定義線程池
    8.3.1  線程池設計
    8.3.2  線程池實現

    8.3.3  性能測試
  8.4  多線程爬蟲控制器
    8.4.1  多線程式控制制器實現
    8.4.2  訪問序列分析
第9章  使用代理
  9.1  代理機制
    9.1.1  使用WebProxy對象
    9.1.2  使用全局代理
  9.2  自定義代理池
    9.2.1  代理池設計
    9.2.2  代理池實現
第10章  模擬瀏覽器
  10.1  瀏覽器的工作原理
    10.1.1  網頁解析過程
    10.1.2  常見的瀏覽器內核
  10.2  使用瀏覽器內核
    10.2.1  Trident內核
    10.2.2  Gecko內核
  10.3  綜合實例:網頁翻譯爬蟲
    10.3.1  問題描述
    10.3.2  爬蟲設計
    10.3.3  爬蟲實現
    10.3.4  演算法改進
第11章  可視化模板配置
  11.1  可視化模板配置方法
    11.1.1  抽取原理
    11.1.2  模板表示
    11.1.3  可視化配置
  11.2  綜合實例:可視化網頁文章爬蟲
    11.2.1  爬蟲設計
    11.2.2  爬蟲實現
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032