幫助中心 | 我的帳號 | 關於我們

智能搜索引擎技術(普通高等院校數據科學與大數據技術專業十三五規劃教材)

  • 作者:編者:高琰
  • 出版社:中南大學
  • ISBN:9787548734123
  • 出版日期:2018/12/01
  • 裝幀:平裝
  • 頁數:183
人民幣:RMB 35 元      售價:
放入購物車
加入收藏夾

內容大鋼
    高琰編著的《智能搜索引擎技術》以當前搜索引擎主流技術為基礎,密切關注前沿技術發展趨勢,結合當前人工智慧和自然語言技術的發展,以深入淺出的形式介紹一套完整的大數據時代背景下的智能搜索引擎的關鍵技術。本書在吸取國內外經典教材優點的基礎上,廣泛搜集合適的實例,通過實例從多個視角對智能搜索引擎的核心技術進行全面介紹,加深讀者對關鍵概念和核心技術的理解。本書還對開源軟體進行了介紹,將技術理論與應用範例結合。
    本書共分為10章,通過採用循序漸進的組織方式對搜索引擎的各個組成部分和核心技術進行了介紹。第1章引言,對搜索引擎進行了簡要概述,介紹了搜索引擎與信息檢索的關係,搜索引擎的歷史、分類及基本架構。第2章信息採集,主要圍繞搜索系統的核心——網路爬蟲進行介紹。第3章文本處理,對搜索引擎的文本處理功能進行了介紹,包括文本信息的提取、自然語言中的統計語言模型、中英文分詞技術、網頁去重演算法等。第4章搜索引擎索引構建,主要介紹搜索引擎的索引系統,包括倒排索引、建立索引的方式、索引的更新策略、分散式索引及索引壓縮演算法。第5章基於文本內容的檢索模型,對搜索引擎的檢索模型進行了介紹,包括傳統的檢索模型,如布爾模型、向量空間模型、概率檢索模型和基於統計語言建模的檢索模型,以及基於機器學習的排序模型。第6章基於鏈接的檢索模型,主要對基於鏈接的檢索模型和針對鏈接作弊的反作弊模型進行了介紹。第7章查詢處理與結果展示,主要對查詢條件的糾正與過濾、查詢處理與展示的技術進行了介紹。第8章相關反饋與查詢擴展,主要對圍繞著相關反饋和查詢擴展的各項技術進行了介紹,通過採用相關反饋和查詢擴展的技術理解用戶的查詢意圖。第9章分類與聚類,主要介紹了在智能搜索引擎中用到的各種機器學習演算法。第10章基於知識圖譜的搜索引擎,對未來搜索引擎的發展方向——基於知識圖譜的智能搜索引擎進行了介紹,包括知識圖譜的構建流程、構建中的信息抽取、知識融合、知識表示與推理等關鍵技術及其在搜索引擎中的應用。
    本書適用於數據科學與大數據技術專業及其電腦相關專業的本科生或研究生以及從事該領域研究的人員。通過對本書的閱讀,可以使讀者對智能搜索引擎的相關知識有一個基本的了解,併為將來開展研究工作打下堅實的基礎。

作者介紹
編者:高琰

目錄
第1章  引言
  1.1  信息檢索與搜索引擎
  1.2  搜索引擎的歷史
  1.3  搜索引擎的分類
  1.4  搜索引擎的基本架構
    1.4.1  主要性能需求
    1.4.2  總體架構
  1.5  搜索引擎的主要組件及其功能
    1.5.1  網路爬蟲
    1.5.2  解析器
    1.5.3  索引器
    1.5.4  檢索器
    1.5.5  用戶交互介面
  1.6  開源搜索引擎
  本章小結
  習題
第2章  信息採集
  2.1  網路爬蟲的概述
    2.1.1  網路爬蟲的功能特點
    2.1.2  網路爬蟲通用架構
    2.1.3  網路爬蟲分類
  2.2  分散式網路爬蟲架構
    2.2.1  主從分散式結構爬蟲(master-slave)
    2.2.2  對等分散式結構爬蟲(peer to peer)
  2.3  信息採集涉及的協議
    2.3.1  URL規範和HTTP協議
    2.3.2  User Agent
    2.3.3  Robots協議
  2.4  頁面遍歷
    2.4.1  寬度優先遍歷策略
    2.4.2  深度優先遍歷策略
    2.4.3  重要度優先遍歷策略
  2.5  頁面更新
    2.5.1  網頁更新策略
    2.5.2  爬蟲更新方式
  2.6  深網抓取
  2.7  開源網路爬蟲
  本章小結
  習題
第3章  文本處理
  3.1  文本信息提取
    3.1.1  網頁數據獲取
    3.1.2  非網頁的數據獲取
  3.2  統計語言模型
    3.2.1  N元模型(N-gram)的基本概念
    3.2.2  數據平滑方法
  3.3  英文分詞
    3.3.1  詞素切分
    3.3.2  詞幹提取
    3.3.3  去除停用詞
  3.4  中文分詞
    3.4.1  中文分詞概述
    3.4.2  基於詞典的機械分詞法
    3.4.3  基於統計的分詞法
    3.4.4  分詞粒度
  3.5  網頁去重
    3.5.1  通用去重演算法流程
    3.5.2  Shingling演算法
    3.5.3  SimHash演算法
  本章小結
  習題
第4章  搜索引擎索引構建
  4.1  倒排索引
    4.1.1  倒排索引基礎
    4.1.2  詞典結構
    4.1.3  倒排表結構
  4.2  建立索引方式
    4.2.1  基於內存的索引構建
    4.2.2  基於排序的索引建立
    4.2.3  基於合併法的索引構建
  4.3  索引更新
  4.4  分散式索引
    4.4.1  數據劃分
    4.4.2  冗余和容錯
    4.4.3  Elastic Search的分散式索引
  4.5  索引壓縮
    4.5.1  評價壓縮演算法的指標
    4.5.2  Delta編碼(D-Gaps)
    4.5.3  無參數間距壓縮編碼
    4.5.4  參數間距壓縮
    4.5.5  高查詢性能的編碼
  本章小結
  習題
第5章  基於文本內容的檢索模型
  5.1  檢索模型概述
  5.2  布爾模型
  5.3  向量空間模型
    5.3.1  文本表示
    5.3.2  查詢相關度計算
  5.4  概率檢索模型
    5.4.1  概率檢索模型概述
    5.4.2  二元獨立模型(binary independent model)
    5.4.3  BM25模型
    5.4.4  BM25F模型
  5.5  基於統計語言建模的檢索模型
  5.6  機器學習排序
    5.6.1  機器學習排序概述
    5.6.2  單文檔方法(pointwise approach)
    5.6.3  文檔對方法(pairwise approach)
    5.6.4  文檔列表方法(listwise approach)
  5.7  檢索質量評價標準
    5.7.1  準確率和召回率
    5.7.2  前k個文檔的查准率(P@k)
    5.7.3  平均查准率均值(mean average precision,MAP)
    5.7.4  NDCG(normalize DCC)
  本章小結
  習題
第6章  基於鏈接的檢索模型
  6.1  Web圖
  6.2  Page Rank演算法
    6.2.1  基於簡單模型的Page Rank演算法
    6.2.2  基於隨機衝浪模型的Page Rank演算法
    6.2.3  主題敏感的Page Rank
  6.3  HITS演算法
    6.3.1  HITS演算法基本思想
    6.3.2  HITS演算法流程
    6.3.3  HITS的優勢與缺陷
  6.4  SALAS演算法
  6.5  通用鏈接反作弊方法
    6.5.1  鏈接作弊方法
    6.5.2  反鏈接作弊思路
    6.5.3  經典鏈接反作弊演算法
  本章小結
  習題
第7章  查詢處理與結果展示
  7.1  查詢糾錯
    7.1.1  查詢糾錯概述
    7.1.2  英文糾錯
  7.2  搜索智能提示
  7.3  不安全信息過濾
  7.4  查詢處理
    7.4.1  「一次一文檔」
    7.4.2  「一次一詞」
  7.5  結果展示
    7.5.1  頁面摘要
    7.5.2  查詢結果聚類
  7.6  查詢緩存機制
  本章小結
  習題
第8章  相關反饋與查詢擴展
  8.1  相關反饋框架
  8.2  顯式相關反饋
    8.2.1  Rocchio相關反饋演算法
    8.2.2  概率相關反饋
    8.2.3  相關反饋策略的評價
  8.3  偽相關反饋
  8.4  隱式反饋
  8.5  查詢擴展
  本章小結
  習題
第9章  分類與聚類
  9.1  文本分類
    9.1.1  文本分類框架
    9.1.2  貝葉斯文檔分類
    9.1.3  支持向量機
    9.1.4  特徵選擇
    9.1.5  評價
  9.2  聚類
    9.2.1  劃分聚類
    9.2.2  層次聚類
    9.2.3  評價
  本章小結
  習題
第10章  基於知識圖譜的搜索引擎
  10.1  概述
  10.2  知識圖譜的數據獲取
  10.3  信息抽取
    10.3.1  實體抽取
    10.3.2  關係抽取
    10.3.3  屬性抽取
  10.4  知識融合
    10.4.1  實體對齊
    10.4.2  實體歧義分析
  10.5  知識表示與知識推理
    10.5.1  知識表示
    10.5.2  知識推理
  10.6  基於知識圖譜的智能搜索引擎
    10.6.1  基於知識圖譜的搜索結構
    10.6.2  查詢理解
    10.6.3  自動問答
  本章小結
  習題
參考文獻
  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032