幫助中心 | 我的帳號 | 關於我們

信息檢索與搜索引擎(電腦科學與技術微課版面向新工科專業建設電腦系列教材)

  • 作者:編者:閆琰|責編:白立軍//薛陽|總主編:張堯學
  • 出版社:清華大學
  • ISBN:9787302660989
  • 出版日期:2024/04/01
  • 裝幀:平裝
  • 頁數:165
人民幣:RMB 49 元      售價:
放入購物車
加入收藏夾

內容大鋼
    為了讓讀者全面了解信息檢索和搜索引擎的基本概念、原理和實現方法,以及相關的研究和應用領域,本書詳細闡述了信息檢索中的重要問題。
    全書共分為3篇,涵蓋信息檢索和搜索引擎的各個方面:第1篇(第1?3章)為基礎篇,介紹信息檢索和搜索引擎的基本概念、原理以及信息採集、文本轉換方法;第2篇(第4?6章)為技術篇,涵蓋索引創建、用戶交互、檢索模型與搜索排序等關鍵技術;第3篇(第7章和第8章)為應用篇,討論搜索引擎評價和鏈接分析,展示搜索引擎在不同領域的應用和發展趨勢。全書提供了大量應用實例,每章后均附有習題。
    通過對這些方面的講解,讀者可以了解信息檢索和搜索引擎的相關技術和方法,掌握它們的實現和應用,為信息處理提供更好的解決方案。

作者介紹
編者:閆琰|責編:白立軍//薛陽|總主編:張堯學
    閆琰,中國礦業大學(北京)副教授,碩士生導師。出版專著《基於深度學習的文本表示與分類方法研究》。目前主要從事信息檢索、自然語言處理、機器學習、人工智慧等領域的教學與研究工作。

目錄
第1章  信息檢索和搜索引擎
  1.1  什麼是信息檢索
    1.1.1  Web搜索
    1.1.2  其他搜索應用
    1.1.3  其他信息檢索應用
  1.2  搜索引警架構
    1.2.1  搜索引擎
    1.2.2  基本的構件
  1.3  搜索引擎構件及其功能
    1.3.1  文本採集
    1.3.2  文本轉換
    1.3.3  索引創建
    1.3.4  用戶交互
    1.3.5  排序
    1.3.6  評價
  1.4  開源的搜索引擎系統
    1.4.1  Lucene
    1.4.2  Solr
    1.4.3  ElasticSearch
  1.5  搜索引擎面對的挑戰
  小結
  習題
第2章  信息採集
  2.1  網頁
  2.1  ,1網頁的特點
    2.1.2  網頁規模的估計
    2.1.3  網頁的年齡
  2.2  網頁爬蟲
    2.2.1  網頁爬蟲的定義
    2.2.2  網頁爬蟲的執行流程
    2.2.3  設計網頁爬蟲的原則
    2.2.4  網頁爬蟲的評價指標
    2.2.5  爬取策略
    2.2.6  深網爬取
  2.3  網站地圖
  2.4  非網頁類信息採集
  2.5  存儲文檔
    2.5.1  形成摘要
    2.5.2  存儲摘要
    2.5.3  文檔更新
    2.5.4  網頁去重和去噪
  小結
  習題
第3章  文本轉換
  3.1  文本的統計特徵
    3.1.1  詞頻分佈
    3.1.2  關聯網頁規模估計
  3.2  停用詞去除
  3.3  詞幹提取
    3.3.1  基於規則的詞幹提取

    3.3.2  基於詞典的詞幹提取
    3.3.3  對比詞幹提取和詞形還原
  3.4  詞素切分
    3.4.1  基於字元串匹配的詞素切分方法
    3.4.2  基於統計的詞素切分方法
    3.4.3  英文詞素切分(N元串)
  3.5  文本轉換的困難
  3.6  文本的向量化表示
    3.6.1  離散表示
    3.6.2  分散式表示
  小結
  習題
第4章  索引創建
  4.1  索引相關定義
    4.1.1  單詞-文檔矩陣
    4.1.2  單詞詞典
    4.1.3  倒排索引相關概念
    4.1.4  倒排索引簡單實例
  4.2  索引的建立
    4.2.1  兩遍文檔遍曆法
    4.2.2  排序法
    4.2.3  歸併法
  4.3  索引更新
    4.3.1  動態索引
    4.3.2  倒排索引的插入
    4.3.3  倒排索引的刪除
  4.4  查詢處理方法
    4.4.1  Document-at-a-time
    4.4.2  Term-at-a-time
    4.4.3  查詢優化
  小結
  習題
第5章  用戶交互
  5.1  信息需求與查詢
  5.2  查詢轉換與提煉
    5.2.1  停用詞去除和詞幹提取
    5.2.2  拼寫檢查
  5.3  查詢擴展
    5.3.1  基於全局分析的查詢擴展
    5.3.2  基於相關反饋和偽相關反饋的查詢擴展
    5.3.3  基於查詢日誌的查詢擴展
  5.4  上下文和個性化
  5.5  查詢推薦
    5.5.1  基於文檔的方法
    5.5.2  基於查詢日誌的方法
  5.6  搜索結果顯示
  小結
  習題
第6章  檢索模型與搜索排序
  6.1  檢索模型概述

    6.1.1  布爾模型
    6.1.2  向量空間模型
    6.1.3  BOW模型
    6.1.4  Latent Dirichlet Allocation
    6.1.5  隱性語義分析
  6.2  概率模型
    6.2.1  概率檢索模型
    6.2.2  二元獨立模型
    6.2.3  BM25模型
  6.3  語言模型
    6.3.1  One-Hot和Word2Vec
    6.3.2  -CBOW模型
    6.3.3  Skip-gram模型
  6.4  排序模型
    6.4.1  K-L散度
    6.4.2  Learning to Rank演算法
  6.5  基於機器學習的排序方法
  小結
  習題
第7章  搜索引擎評價
  7.1  搜索引擎評價的意義
  7.2  搜索引擎評價體系
  7.3  效果評價
    7.3.1  召回率、精確率、ROC曲線
    7.3.2  平均精確率
    7.3.3  關注排序靠前的文檔
    7.3.4  使用用戶偏好
  7.4  效率評價
  7.5  訓練、測試和統計
    7.5.1  比較評價
    7.5.2  顯著性檢驗
    7.5.3  最小化判定工作
    7.5.4  設置參數值
  小結
  習題
第8章  鏈接分析
  8.1  PageRank演算法
    8.1.1  什麼是PageRank
    8.1.2  PageRank的工作原理
    8.1.3  PageRank計算
    8.1.4  PageRank應用與分析
  8.2  HITS演算法
    8.2.1  什麼是HITS
    8.2.2  HITS工作原理
    8.2.3  HITS演算法存在的問題
    8.2.4  HITS與PageRank比較
    8.2.5  其他改進演算法
  8.3  網頁作弊技術
    8.3.1  基於內容的作弊技術
    8.3.2  基於鏈接關係的作弊技術

    8.3.3  掩蓋技術和重定向技術
  8.4  網頁反作弊技術
    8.4.1  特定類別的作弊頁面識別技術
    8.4.2  非特定類別的作弊頁面識別技術
  小結
  習題
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032