幫助中心 | 我的帳號 | 關於我們

文本數據挖掘(第2版)/中國科學院大學研究生教學輔導書系列

  • 作者:宗成慶//夏睿//張家俊|責編:黎強//孫亞楠
  • 出版社:清華大學
  • ISBN:9787302612957
  • 出版日期:2022/11/01
  • 裝幀:平裝
  • 頁數:334
人民幣:RMB 99 元      售價:
放入購物車
加入收藏夾

內容大鋼
    文本數據挖掘是通過機器學習、自然語言處理和推理等相關技術或方法,理解、分析和挖掘文本的內容,從而完成信息抽取、關係發現、熱點預測、文本分類和自動摘要等具體任務的信息處理技術。本書主要介紹與文本數據挖掘有關的基本概念、理論模型和實現演算法,包括數據預處理、文本表示、文本分類、文本聚類、主題模型、情感分析與觀點挖掘、話題檢測與跟蹤、信息抽取以及文本自動摘要等,最後通過具體實例展示相關技術在實際應用中的使用方法。
    本書可作為高等院校電腦、自動化、網路安全、大數據分析等專業,以及利用到文本信息處理的交叉學科(如金融財經、社會人文、生物醫藥等)的高年級本科生或研究生從事相關研究的入門參考書,也可供相關技術研發人員閱讀和參考。

作者介紹
宗成慶//夏睿//張家俊|責編:黎強//孫亞楠

目錄
第1章  緒論
  1.1  基本概念
  1.2  文本挖掘任務
  1.3  文本挖掘面臨的困難
  1.4  方法概述與本書的內容組織
  1.5  進一步閱讀
  習題
第2章  數據預處理和標注
  2.1  概述
  2.2  數據獲取
  2.3  數據預處理
  2.4  數據標注
  2.5  基本工具
    2.5.1  漢語自動分詞與詞性標注
    2.5.2  句法分析
    2.5.3  n元語法模型
  2.6  進一步閱讀
  習題
第3章  文本表示
  3.1  概述
  3.2  向量空間模型
    3.2.1  向量空間模型的基本概念
    3.2.2  特徵項的構造與權重
    3.2.3  文本長度規範化
    3.2.4  特徵工程
    3.2.5  其他文本表示方法
  3.3  詞的分散式表示
    3.3.1  神經網路語言模型
    3.3.2  C&W模型
    3.3.3  CBOW與Skip-gram模型
    3.3.4  雜訊對比估計與負採樣
    3.3.5  字詞混合的分散式表示方法
  3.4  短語的分散式表示
    3.4.1  基於詞袋的分散式表示
    3.4.2  基於自動編碼器的分散式表示
  3.5  句子的分散式表示
    3.5.1  通用的句子表示
    3.5.2  任務相關的句子表示
  3.6  文檔的分散式表示
    3.6.1  通用的文檔分散式表示
    3.6.2  任務相關的文檔分散式表示
  3.7  進一步閱讀
  習題
第4章  預訓練語言模型
  4.1  概述
  4.2  ELMo:源自語言模型的語境化分散式向量表示
    4.2.1  基於雙向LSTM的語言模型
    4.2.2  適應下游任務的語境化ELMo詞向量
  4.3  GPT:生成式預訓練模型
    4.3.1  Transformer

    4.3.2  GPT預訓練
    4.3.3  GPT微調
  4.4  BERT:雙向Transformer編碼表示
    4.4.1  BERT預訓練
    4.4.2  BERT微調
    4.4.3  XLNet:廣義自回歸預訓練模型
    4.4.4  UniLM
  4.5  進一步閱讀
  習題
第5章  文本分類
  5.1  概述
  5.2  傳統文本表示
  ……
第6章  文本聚類
第7章  主題模型
第8章  情感分析與觀點挖掘
第9章  話題檢測與跟蹤
第10章  信息抽取
第11章  文本自動摘要
第12章  技術應用
參考文獻
名詞術語索引

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032