幫助中心 | 我的帳號 | 關於我們

搜索引擎技術與發展

  • 作者:編者:羅剛|責編:張迪
  • 出版社:電子工業
  • ISBN:9787121398032
  • 出版日期:2020/11/01
  • 裝幀:平裝
  • 頁數:259
人民幣:RMB 69 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書主要介紹如何使用Java語言開發搜索引擎,包括搜索引擎技術入門,使用Java開髮網絡爬蟲,實現從文檔中提取索引內容,中文分詞的原理與實現,在Linux伺服器端開發Solr應用,SpringBoot微服務框架實現的後端,以及React框架實現的前端等內容。
    第1章主要介紹各種類型的搜索引擎和開發搜索引擎可以借助的軟體工具;第2章主要介紹網路爬蟲開發和數據存儲;第3章主要介紹從HTML文件中提取文本,以及從PDF、Word等非HTML文件中提取文本;第4章主要介紹Lucene中的中文分析器的原理與實現;第5章主要介紹Solr索引庫的創建與維護,以及Solr的查詢解析器;第6章主要介紹Web方式搜索結果界面的實現;第7章主要介紹如何使用SolrCloud實現分散式搜索。

作者介紹
編者:羅剛|責編:張迪

目錄
第1章  遍歷搜索引擎技術
  1.1  快速上手搜索引擎
    1.1.1  準備工作環境
    1.1.2  生成索引
    1.1.3  關鍵詞查詢
    1.1.4  實現搜索界面
  1.2  搜索語法
  1.3  你也可以做搜索引擎
  1.4  搜索引擎的基本技術
    1.4.1  網路爬蟲
    1.4.2  全文索引結構
    1.4.3  Solr全文檢索引擎
    1.4.4  Nutch網路搜索軟體
    1.4.5  用戶界面
  1.5  商業搜索引擎技術概述
    1.5.1  通用搜索
    1.5.2  垂直搜索
    1.5.3  站內搜索
  1.6  本章小結
第2章  獲得海量數據
  2.1  自己的網路爬蟲
    2.1.1  使用URL訪問網路資源
    2.1.2  重試
    2.1.3  網路爬蟲的遍歷與實現
    2.1.4  多線程爬蟲
    2.1.5  Log4j2日誌
    2.1.6  存儲URL地址
    2.1.7  定向採集
    2.1.8  暗網抓取
    2.1.9  Selenium抓取動態頁面
    2.1.10  圖片抓取
  2.2  數據存儲
    2.2.1  寫入文件
    2.2.2  Jdbi寫入資料庫
  2.3  本地部署
  2.4  本章小結
第3章  提取文檔中的文本內容
  3.1  從HTML文件中提取文本
    3.1.1  使用HTMLParser實現定向抓取
    3.1.2  結構化信息提取
    3.1.3  網頁的DOM結構
    3.1.4  網頁去噪
    3.1.5  正文提取
  3.2  從非HTML文件中提取文本
    3.2.1  PDF文件
    3.2.2  Word文件
    3.2.3  Rtf文件
    3.2.4  Excel文件
    3.2.5  PowerPoint文件
    3.2.6  從圖片中提取文本

  3.3  流媒體內容提取
    3.3.1  音頻流內容提取
    3.3.2  視頻流內容提取
  3.4  本章小結
第4章  中文分詞
  4.1  Lucene中的中文分詞
  4.2  中文分詞的原理
  4.3  查找詞典演算法
  4.4  句子切分
  4.5  有限狀態機識別未登錄串
  4.6  最大概率分詞方法
  4.7  N元分詞方法
    4.7.1  二元詞典
    4.7.2  二元分詞
    4.7.3  開發中文分析器
  4.8  新詞發現
  4.9  命名實體識別
    4.9.1  人名識別
    4.9.2  組織機構名稱識別
    4.9.3  化學物質識別
  4.10  詞性標注
  4.11  平滑演算法
  4.12  地名切分
  4.13  本章小結
第5章  Solr伺服器端開發
  5.1  在Linux操作系統中安裝Solr
  5.2  創建和維護索引庫
  5.3  索引本地硬碟上的文件
  5.4  使用Bean索引文檔
  5.5  更新索引庫中的索引文檔
  5.6  刪除數據
  5.7  檢測索引
  5.8  查詢解析器
  5.9  本章小結
第6章  用戶界面的設計與實現
  6.1  Solr搜索介面(search代碼)
  6.2  搜索頁面設計
    6.2.1  用於顯示搜索結果的模板
    6.2.2  搜索結果分頁
    6.2.3  測試搜索結果頁
    6.2.4  界面國際化
    6.2.5  用於Solr的Spring Data
    6.2.6  Spring-HATEOAS實現REST架構
  6.3  實現搜索介面
    6.3.1  基本查詢
    6.3.2  布爾搜索
    6.3.3  指定範圍搜索
    6.3.4  搜索結果排序
  6.4  實現聚合
  6.5  實現相似文檔搜索

  6.6  實現自動完成
    6.6.1  總體結構
    6.6.2  伺服器端處理
    6.6.3  自動完成客戶端
  6.7  搜索日誌
  6.8  React框架
  6.9  本章小結
第7章  Solr分散式搜索
  7.1  使用Solr實現分散式搜索
    7.1.1  使用SolrCloud
    7.1.2  分片
    7.1.3  管理集群
    7.1.4  SolrCloud工作原理
    7.1.5  ZooKeeper分散式協調器
  7.2  Jenkins持續集成
  7.3  本章小結
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032