幫助中心 | 我的帳號 | 關於我們

網路數據採集技術(Java網路爬蟲實戰)

  • 作者:錢洋//姜元春
  • 出版社:電子工業
  • ISBN:9787121376078
  • 出版日期:2020/01/01
  • 裝幀:平裝
  • 頁數:368
人民幣:RMB 79 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書以Java為開發語言,系統地介紹了網路爬蟲的理論知識和基礎工具,包括網路爬蟲涉及的Java基礎知識、HTTP協議基礎與網路抓包、網頁內容獲取、網頁內容解析和網路爬蟲數據存儲等。本書選取典型網站,採用案例講解的方式介紹網路爬蟲中涉及的問題,以增強讀者的動手實踐能力。同時,本書還介紹了3種Java網路爬蟲開源框架,即Crawler4j、WebCollector和WebMagic。
    本書適用於Java網路爬蟲開發的初學者和進階者;也可作為網路爬蟲課程教學的參考書,供高等院校文本挖掘、自然語言處理、大數據商務分析等相關學科的本科生和研究生參考使用;也可供企業網路爬蟲開發人員參考使用。

作者介紹
錢洋//姜元春

目錄
第1章  網路爬蟲概述與原理
  1.1  網路爬蟲簡介
  1.2  網路爬蟲分類
  1.3  網路爬蟲流程
  1.4  網路爬蟲的採集策略
  1.5  學習網路爬蟲的建議
  1.6  本章小結
第2章  網路爬蟲涉及的Java基礎知識
  2.1  開發環境的搭建
    2.1.1  JDK的安裝及環境變數配置
    2.1.2  Eclipse的下載
  2.2  基本數據類型
  2.3  數組
  2.4  條件判斷與循環
  2.5  集合
    2.5.1  List和Set集合
    2.5.2  Map集合
    2.5.3  Queue集合
  2.6  對象與類
  2.7  String類
  2.8  日期和時間處理
  2.9  正則表達式
  2.10  Maven工程的創建
  2.11  log4j的使用
  2.12  本章小結
第3章  HTTP協議基礎與網路抓包
  3.1  HTTP協議簡介
  3.2  URL
  3.3  報文
  3.4  HTTP請求方法
  3.5  HTTP狀態碼
    3.5.1  狀態碼2XX
    3.5.2  狀態碼3XX
    3.5.3  狀態碼4XX
    3.5.4  狀態碼5XX
  3.6  HTTP信息頭
    3.6.1  通用頭
    3.6.2  請求頭
    3.6.3  響應頭
    3.6.4  實體頭
  3.7  HTTP響應正文
    3.7.1  HTML
    3.7.2  XML
    3.7.3  JSON
  3.8  網路抓包
    3.8.1  簡介
    3.8.2  使用情境
    3.8.3  瀏覽器實現網路抓包
    3.8.4  其他網路抓包工具推薦
  3.9  本章小結

第4章  網頁內容獲取
  4.1  Jsoup的使用
    4.1.1  jar包的下載
    4.1.2  請求URL
    4.1.3  設置頭信息
    4.1.4  提交請求參數
    4.1.5  超時設置
    4.1.6  代理伺服器的使用
    4.1.7  響應轉輸出流(圖片、PDF等的下載)
    4.1.8  HTTPS請求認證
    4.1.9  大文件內容獲取問題
  4.2  HttpClient的使用
    4.2.1  jar包的下載
    4.2.2  請求URL
    4.2.3  EntityUtils類
    4.2.4  設置頭信息
    4.2.5  POST提交表單
    4.2.6  超時設置
    4.2.7  代理伺服器的使用
    4.2.8  文件下載
    4.2.9  HTTPS請求認證
    4.2.10  請求重試
    4.2.11  多線程執行請求
  4.3  URLConnection與HttpURLConnection
    4.3.1  實例化
    4.3.2  獲取網頁內容
    4.3.3  GET請求
    4.3.4  模擬提交表單(POST請求)
    4.3.5  設置頭信息
    4.3.6  連接超時設置
    4.3.7  代理伺服器的使用
    4.3.8  HTTPS請求認證
  4.4  本章小結
第5章  網頁內容解析
  5.1  HTML解析
    5.1.1  CSS選擇器
    5.1.2  Xpath語法
    5.1.3  Jsoup解析HTML
    5.1.4  HtmlCleaner解析HTML
    5.1.5  HTMLParser解析HTML
  5.2  XML解析
  5.3  JSON解析
    5.3.1  JSON校正
    5.3.2  org.json解析JSON
    5.3.3  Gson解析JSON
    5.3.4  Fastjson解析JSON
    5.3.5  網路爬蟲實戰演練
  5.4  本章小結
第6章  網路爬蟲數據存儲
  6.1  輸入流與輸出流

    6.1.1  簡介
    6.1.2  File類
    6.1.3  文件位元組流
    6.1.4  文件字元流
    6.1.5  緩衝流
    6.1.6  網路爬蟲下載圖片實戰
    6.1.7  網路爬蟲文本存儲實戰
  6.2  Excel存儲
    6.2.1  Jxl的使用
    6.2.2  POI的使用
    6.2.3  爬蟲案例
  6.3  MySQL數據存儲
    6.3.1  資料庫的基本概念
    6.3.2  SQL語句基礎
    6.3.3  Java操作資料庫
    6.3.4  爬蟲案例
  6.4  本章小結
第7章  網路爬蟲實戰項目
  7.1  新聞數據採集
    7.1.1  採集的網頁
    7.1.2  框架介紹
    7.1.3  程序編寫
  7.2  企業信息採集
    7.2.1  採集的網頁
    7.2.2  框架介紹
    7.2.3  第一層信息採集
    7.2.4  第二層信息採集
  7.3  股票信息採集
    7.3.1  採集的網頁
    7.3.2  框架介紹
    7.3.3  程序設計
    7.3.4  Quartz實現定時調度任務
  7.4  本章小結
第8章  Selenium的使用
  8.1  Selenium簡介
  8.2  JavaSelenium環境搭建
  8.3  瀏覽器的操控
  8.4  元素定位
    8.4.1  id定位
    8.4.2  name定位
    8.4.3  class定位
    8.4.4  tag name定位
    8.4.5  link text定位
    8.4.6  Xpath定位
    8.4.7  CSS選擇器定位
  8.5  模擬登錄
  8.6  動態載入JavaScript數據(操作滾動條)
  8.7  隱藏瀏覽器
  8.8  截取驗證碼
  8.9  本章小結

第9章  網路爬蟲開源框架
  9.1  Crawler4j的使用
    9.1.1  Crawler4j簡介
    9.1.2  jar包的下載
    9.1.3  入門案例
    9.1.4  相關配置
    9.1.5  圖片的採集
    9.1.6  數據採集入庫
  9.2  WebCollector的使用
    9.2.1  WebCollector簡介
    9.2.2  jar包的下載
    9.2.3  入門案例
    9.2.4  相關配置
    9.2.5  HTTP請求擴展
    9.2.6  翻頁數據採集
    9.2.7  圖片的採集
    9.2.8  數據採集入庫
  9.3  WebMagic的使用
    9.3.1  WebMagic簡介
    9.3.2  jar包的下載
    9.3.3  入門案例(翻頁數據採集)
    9.3.4  相關配置
    9.3.5  數據存儲方式
    9.3.6  數據採集入庫
    9.3.7  圖片的採集
  9.4  本章小結

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032