幫助中心 | 我的帳號 | 關於我們

搜索引擎技術與應用開發(高等學校電腦專業規劃教材)

  • 作者:編者:李群|責編:龍啟銘//薛陽
  • 出版社:清華大學
  • ISBN:9787302560036
  • 出版日期:2020/11/01
  • 裝幀:平裝
  • 頁數:347
人民幣:RMB 69 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書從教學的角度出發,全面地闡述了搜索引擎的原理和實踐,包括:搜索引擎的基本原理與技術、搜索引擎的數據結構和搜索引擎的爬蟲、信息處理技術、信息檢索技術、信息檢索評價技術、多媒體信息檢索技術以及搜索引擎開發技術。在教材的編寫過程中,對基本概念、基礎知識的介紹力求做到簡明扼要;各章相互配合,又自成體系附有小結和習題,同時還有相關的實驗及應用技術。
    本書適合高等院校電腦科學與技術專業及相關專業的高年級學生和研究生閱讀參考,也適合相關領域的工程技術人員參閱。

作者介紹
編者:李群|責編:龍啟銘//薛陽

目錄
第1章  搜索引擎概述
  1.1  搜索引擎的概念
    1.1.1  搜索引擎基本概念
    1.1.2  搜索引擎的原理
  1.2  搜索引擎的歷史與發展趨勢
    1.2.1  搜索引擎的發展史
    1.2.2  搜索引擎的發展趨勢
  1.3  搜索引擎的分類
    1.3.1  全文搜索引擎
    1.3.2  目錄索引搜索引擎
    1.3.3  元搜索引擎
    1.3.4  分散式搜索引擎
  1.4  搜索引擎的關鍵技術
    1.4.1  信息收集和存儲技術
    1.4.2  信息預處理技術
    1.4.3  信息索引技術
  1.5  主要搜索引擎介紹
    1.5.1  谷歌(Google)搜索
    1.5.2  雅虎(Yahoo!)搜索
    1.5.3  百度(Baidu)搜索
    1.5.4  360搜索
  小結
  思考題
第2章  搜索引擎基礎
  2.1  搜索引擎的體系結構
    2.1.1  搜索器
    2.1.2  索引器
    2.1.3  檢索器
    2.1.4  用戶介面
  2.2  搜索引擎的工作原理
    2.2.1  網頁搜集
    2.2.2  網頁處理
    2.2.3  查詢服務
  2.3  搜索引擎的數據結構
    2.3.1  存儲結構
    2.3.2  信息庫
    2.3.3  文本索引
    2.3.4  詞典
    2.3.5  採樣表
    2.3.6  前向索引
    2.3.7  後向索引
  2.4  元搜索引擎
    2.4.1  元搜索引擎的基本構成
    2.4.2  元搜索引擎的分類
    2.4.3  常用元搜索引擎介紹
    2.4.4  元搜索引擎的特點
    2.4.5  主要技術指標
  2.5  個性化搜索引擎
    2.5.1  系統模塊及其功能
    2.5.2  個性化搜索引擎的關鍵技術

  2.6  智能搜索引擎
    2.6.1  智能搜索引擎特徵
    2.6.2  智能搜索引擎主要技術
  小結
  思考題
第3章  網頁抓取技術
  3.1  搜索引擎爬蟲
    3.1.1  網路爬蟲工作原理
    3.1.2  開源網路爬蟲簡介
    3.1.3  網頁信息的抓取
  3.2  搜索引擎爬蟲的關鍵技術
    3.2.1  網頁抓取優先策略
    3.2.2  深度優先策略
    3.2.3  廣度優先策略
    3.2.4  最佳優先策略
    3.2.5  不重複抓取策略
    3.2.6  網頁重訪策略
    3.2.7  網頁抓取提速策略
    3.2.8  Robots協議
  小結
  思考題
第4章  網路爬蟲開發技術
  4.1  網路爬蟲的常用技術
    4.1.1  網路爬蟲工作流程
    4.1.2  網路請求技術
    4.1.3  網頁抓取技術
    4.1.4  其他處理技術
  4.2  正則表達式
    4.2.1  什麼是正則表達式
    4.2.2  正則表達式基礎知識
    4.2.3  正則表達式常見函數
    4.2.4  正則表達式的簡單使用
  4.3  網路爬蟲常用框架
    4.3.1  Scrapy爬蟲框架
    4.3.2  Crawley爬蟲框架
    4.3.3  PySpider爬蟲框架
    4.3.4  Portia爬蟲框架
  4.4  網路爬蟲實現技術
    4.4.1  爬蟲偽裝技術
    4.4.2  爬蟲定向爬取技術
    4.4.3  博客類爬蟲的實現技術
  小結
  思考題
第5章  網頁信息預處理技術
  5.1  網頁信息結構化
    5.1.1  網頁結構化的目標
    5.1.2  建立DOM樹
    5.1.3  網頁內容的獲取
  5.2  文本處理
    5.2.1  詞法分析

    5.2.2  中文分詞技術
    5.2.3  無用詞刪除
    5.2.4  詞幹提取
    5.2.5  索引詞選擇
    5.2.6  詞典
  5.3  PageRank演算法
    5.3.1  什麼是PageRank
    5.3.2  PageRank的演算法
    5.3.3  PageRank的特性
    5.3.4  PageRank的迭代計算
    5.3.5  網頁級別的優化
  小結
  思考題
第6章  信息索引技術
  6.1  順排檢索
    6.1.1  表展開法
    6.1.2  邏輯樹展開法
    6.1.3  BF演算法
    6.1.4  KMP演算法
    6.1.5  BM演算法
  6.2  倒排檢索
    6.2.1  倒排索引
    6.2.2  倒排文檔
    6.2.3  逆波蘭表達式
    6.2.4  檢索指令表的生成
    6.2.5  檢索實施
  6.3  后綴數組索引
    6.3.1  后綴樹概念
    6.3.2  后綴樹原理
    6.3.3  后綴樹存儲
    6.3.4  后綴樹的構造
    6.3.5  后綴數組
    6.3.6  后綴數組生成演算法
  6.4  文本壓縮技術
    6.4.1  基本概念
    6.4.2  統計方法
    6.4.3  字典方法
    6.4.4  倒排文檔壓縮
  小結
  思考題
第7章  信息查詢與評價技術
  7.1  檢索模型
    7.1.1  經典模型
    7.1.2  代數模型
  7.2  檢索方法
    7.2.1  布爾檢索
    7.2.2  加權檢索
    7.2.3  全文檢索
    7.2.4  超文本檢索
  7.3  查詢服務

    7.3.1  查詢器原理
    7.3.2  搜索引擎檢索過程
    7.3.3  檢索結果排序
    7.3.4  自動摘要生成
  7.4  相關性
    7.4.1  相關性的特徵
    7.4.2  相關性類別
    7.4.3  相關性模型
  7.5  搜索引擎評價指標
    7.5.1  有效性
    7.5.2  查全率和查准率
    7.5.3  其他評價指標
  小結
  思考題
第8章  多媒體信息檢索技術
  8.1  多媒體的基本概念
    8.1.1  多媒體及多媒體技術
    8.1.2  音頻信息與檢索特徵
    8.1.3  圖形圖像信息與檢索特徵
    8.1.4  視頻信息與檢索特徵
    8.1.5  多媒體信息檢索
  8.2  多媒體數據壓縮
    8.2.1  多媒體壓縮原理
    8.2.2  多媒體壓縮編碼
  8.3  多媒體內容的理解
    8.3.1  分割
    8.3.2  特徵提取
    8.3.3  分類
  8.4  多媒體信息檢索的關鍵技術
    8.4.1  信息模型
    8.4.2  檢索技術
    8.4.3  查詢語言
    8.4.4  數據壓縮和恢復
    8.4.5  存儲管理
    8.4.6  同步技術
  小結
  思考題
第9章  搭建基於Lucene的搜索引擎
  9.1  實例簡介
    9.1.1  搜索引擎的體系結構
    9.1.2  網頁搜集
    9.1.3  網頁預處理
    9.1.4  查詢服務
  9.2  環境搭建與配置
    9.2.1  JDK1.6的安裝與配置
    9.2.2  Eclipse的安裝與配置
    9.2.3  Tomcat的安裝與配置
    9.2.4  Heritrix的安裝與配置
  9.3  網頁搜集
    9.3.1  設置Heritrix抓取任務

    9.3.2  修改Heritrix源代碼
    9.3.3  抓取網頁
  9.4  網頁預處理
    9.4.1  原始網頁的處理
    9.4.2  建立簡單的索引
    9.4.3  為實例建立索引
  9.5  查詢服務
    9.5.1  結構設計
    9.5.2  查詢設計
    9.5.3  預搜索設計
    9.5.4  頁面設計
    9.5.5  網頁快照實現
    9.5.6  部署到Tomcat
  小結
  實驗
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032