幫助中心 | 我的帳號 | 關於我們

基於NLP的內容理解/智能系統與技術叢書

  • 作者:李明琦//谷雪//孟子堯|責編:楊福川
  • 出版社:機械工業
  • ISBN:9787111720690
  • 出版日期:2023/03/01
  • 裝幀:平裝
  • 頁數:242
人民幣:RMB 99 元      售價:
放入購物車
加入收藏夾

內容大鋼
    這是一本講述如何用NLP技術進行文本內容理解的著作,也是一本系統講解NLP演算法的著作,是作者在NLP和內容理解領域多年經驗的總結。
    本書結合內容理解的實際業務場景,系統全面、循序漸進地講解了各種NLP演算法以及如何用這些演算法高效地解決內容理解方面的難題,主要包括如下幾個方面的內容:
    (1)文本特徵表示
    文本特徵表示是NLP的基石,也是內容理解的基礎環節,本書詳細講解了離散型表示方法和分佈型表示方法等特徵表示方法及其應用場景,還講解了詞向量的評判標準。
    (2)內容重複理解
    詳細講解了標題重複、段落重複、文章重複的識別方法和去重演算法。
    (3)內容通順度識別及糾正
    詳細講解了內容通順度的識別方法以及糾正不通順內容的方法。
    (4)內容質量
    詳細講解了多種內容質量相關的演算法,以及如何搭建高質量的知識問答體系的流程。
    (5)標籤體系構建
    詳細講解了針對內容理解的標籤體系的建設流程和方法,以及多種相關演算法。
    (6)文本摘要生成
    詳細講解了抽取式文本摘要和生成式文本摘要兩種流行的文本摘要生成方法,以及文本摘要的常用數據集和文本摘要評價方法。
    (7)文本糾錯
    詳細講解了文本糾錯的傳統方法、深度學習方法、工業界解決方案,以及常用的文本糾錯工具的安裝和使用。

作者介紹
李明琦//谷雪//孟子堯|責編:楊福川

目錄
前言
第1章  文本特徵表示
  1.1  語料與語料預處理
    1.1.1  語料和語料庫
    1.1.2  語料預處理
  1.2  文本特徵表示方法
    1.2.1  離散型特徵表示方法
    1.2.2  分佈型特徵表示方法
  1.3  詞向量的評判標準
    1.3.1  內部評估
    1.3.2  外在評估
  1.4  本章小結
第2章  內容重複理解
  2.1  標題重複
    2.1.1  標題符號規整化處理
    2.1.2  Jieba分詞
    2.1.3  LAC分詞
    2.1.4  基於分詞及字元串等方式進行重複識別
  2.2  段落重複識別實例
    2.2.1  段落重複識別
    2.2.2  基於N-gram演算法進行內容去重
    2.2.3  平滑處理技術
  2.3  基於相似度計算的文章判重
    2.3.1  文本相似度計算任務的分析
    2.3.2  距離度量方式
    2.3.3  基於SimHash演算法進行文本重複檢測
  2.4  本章小結
第3章  內容通順度識別及糾正
  3.1  數據增強
  3.2  基於FastText演算法的句子通順度識別
    3.2.1  CBOW模型
    3.2.2  FastText演算法原理
    3.2.3  FastText演算法實戰
  3.3  基於TextCNN演算法的分類任務實現
    3.3.1  專有名詞簡介
    3.3.2  演算法介紹
    3.3.3  參數調優經驗總結
    3.3.4  基於Keras工具實現TextCNN演算法
  3.4  基於TextRNN演算法的分類任務實現
    3.4.1  LSTM和BiLSTM
    3.4.2  TextCNN和TextRNN識別效果對比
  3.5  基於Seq2Seq模型的糾正策略
    3.5.1  Seq2Seq模型原理
    3.5.2  糾正不通順句子的方法
  3.6  本章小結
第4章  內容質量
  4.1  GBDT演算法
    4.1.1  GBDT演算法概述
    4.1.2  負梯度擬合
    4.1.3  GBDT回歸演算法

    4.1.4  GBDT分類演算法
  4.2  XGBoost演算法
    4.2.1  從GBDT到XGBoost
    4.2.2  XGBoost損失函數
    4.2.3  XGBoost損失函數的優化求解
    4.2.4  XGBoost演算法流程
    4.2.5  XGBoost演算法參數及調優
  4.3  知識問答質量體系的搭建
    4.3.1  知識問答質量體系建立的意義
    4.3.2  整體的項目實施方案
    4.3.3  知識問答質量體系搭建流程
  4.4  本章小結
第5章  標籤體系構建
  5.1  標籤體系
    5.1.1  標籤體系的重要性
    5.1.2  標籤體系的分類
    5.1.3  構建標籤體系
  5.2  TF-IDF演算法
    5.2.1  TF-IDF演算法介紹
    5.2.2  TF-IDF演算法實現
  5.3  PageRank演算法
  5.4  TextRank演算法
    5.4.1  TextRank演算法的使用場景
    5.4.2  TextRank演算法的優缺點
  5.5  本章小結
第6章  文本摘要生成
  6.1  文本摘要相關介紹
    6.1.1  文本摘要問題定義
    6.1.2  文本摘要分類
    6.1.3  文本摘要的技術和方法
  6.2  基於無監督的抽取式文本摘要
    6.2.1  基於經驗的文本摘要
    6.2.2  基於主題模型的文本摘要
    6.2.3  基於圖的文本摘要
    6.2.4  基於特徵評分的文本摘要
    6.2.5  基於聚類的文本摘要
  6.3  基於有監督的抽取式文本摘要
  6.4  基於深度神經網路的生成式文本摘要
  6.5  文本摘要常用數據集
  6.6  文本摘要評價方法
    6.6.1  自動評價方法
    6.6.2  人工評價方法
  6.7  本章小結
第7章  文本糾錯
  7.1  錯誤來源及類型
  7.2  文本糾錯的3種傳統方法
    7.2.1  模板匹配
    7.2.2  編輯距離匹配
    7.2.3  HANSpeller++框架
  7.3  文本糾錯深度學習方法

    7.3.1  英文文本糾錯方法
    7.3.2  中文文本糾錯方法
  7.4  工業界解決方法
    7.4.1  3階段級聯的糾錯方案
    7.4.2  符合多種場景的通用糾錯方案
    7.4.3  保險文本的糾錯方案
  7.5  文本糾錯工具
    7.5.1  pycorrector
    7.5.2  xmnlp
  7.6  本章小結

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032