幫助中心 | 我的帳號 | 關於我們

Python中文自然語言處理基礎與實戰(第2版微課版大數據應用開發十四五職業教育國家規劃教材人工智慧與大數據技術精品系列教材)

  • 作者:編者:肖剛//張良均|責編:初美呈
  • 出版社:人民郵電
  • ISBN:9787115673220
  • 出版日期:2025/08/01
  • 裝幀:平裝
  • 頁數:304
人民幣:RMB 69.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書以Python中文自然語言處理的常用技術與真實案例相結合的方式,深入淺出地介紹Python中文自然語言處理的重要內容。全書共13章,內容包括緒論、語料庫、正則表達式、中文分詞、詞性標注和命名實體識別、關鍵詞提取、文本向量化、文本分類和文本聚類、文本情感分析、NLP中的深度學習技術、智能問答系統、大語言模型以及基於TipDM大數據挖掘建模平台實現垃圾簡訊分類。全書大部分章節都包含實訓和課後習題,旨在通過練習和操作實踐,幫助讀者鞏固所學的內容。
    本書可用於「1+X」大數據應用開發(Python)職業技能等級證書(高級)的教學和培訓,也可作為高校數據科學或人工智慧相關專業的教材,還可作為自然語言處理愛好者的自學用書。

作者介紹
編者:肖剛//張良均|責編:初美呈

目錄
第1章  緒論
  1.1  NLP概述
    1.1.1  NLP的發展歷程
    1.1.2  NLP的研究內容
    1.1.3  NLP的應用
    1.1.4  NLP與人工智慧技術的關係
    1.1.5  學習NLP的困難
    1.1.6  中文NLP的挑戰
  1.2  中文NLP基本流程
    1.2.1  語料獲取
    1.2.2  語料預處理
    1.2.3  文本向量化
    1.2.4  模型構建
    1.2.5  模型訓練
    1.2.6  模型評價
  1.3  NLP的Python開發環境
    1.3.1  NLP與Python
    1.3.2  Anaconda簡介與安裝
    1.3.3  Anaconda中應用的簡介
  1.4  任務:構建中文文本高頻詞雲圖
  小結
  課後習題
第2章  語料庫
  2.1  語料庫概述
    2.1.1  語料庫的特點
    2.1.2  語料庫的用途
  2.2  語料庫種類與構建原則
    2.2.1  語料庫種類
    2.2.2  語料庫構建原則
  2.3  語料庫的獲取
    2.3.1  中文開源語料庫
    2.3.2  網路在線語料庫
  2.4  任務:網路在線語料分析
  2.5  任務:構建電影評論語料庫
  小結
  實訓
    實訓1  構建語料庫
    實訓2  《七劍下天山》語料庫分析
  課後習題
第3章  正則表達式
  3.1  正則表達式簡介
    3.1.1  正則表達式的應用範圍
    3.1.2  正則表達式函數
    3.1.3  正則表達式元字元
  3.2  任務:正則表達式應用
    3.2.1  常用正則表達式搭配
    3.2.2  常用正則表達式示例
  小結
  實訓
    實訓1  過濾《三國志》中的非中文字元

    實訓2  提取地名與郵編
    實訓3  提取網頁標籤中的文本
  課後習題
第4章  中文分詞
  4.1  中文分詞簡介
    4.1.1  中文分詞的難點
    4.1.2  中文分詞方法
  4.2  基於規則的分詞
    4.2.1  正向最大匹配法
    4.2.2  逆向最大匹配法
    4.2.3  雙向最大匹配法
  4.3  基於統計的分詞
    4.3.1  HMM
    4.3.2  中文分詞與HMM
  4.4  基於深度學習的分詞
    4.4.1  基於深度學習的分詞的主要步驟
    4.4.2  基於深度學習的中文分詞示例
  4.5  中文分詞工具jieba
    4.5.1  jieba演算法簡介
    4.5.2  jieba分詞模式
  4.6  任務:中文分詞的應用
    4.6.1  HMM中文分詞
    4.6.2  提取新聞文本的高頻詞
  小結
  實訓
    實訓1  使用HMM進行中文分詞
    實訓2  提取新聞文本中的高頻詞
  課後習題
第5章  詞性標注和命名實體識別
  5.1  詞性標注簡介
  5.2  詞性標注模型
    5.2.1  基於HMM的詞性標注
    5.2.2  基於深度學習的詞性標注
  5.3  基於jieba的詞性標注
  5.4  命名實體識別
    5.4.1  命名實體識別簡介
    5.4.2  基於CRF模型的中文命名實體識別
    5.4.3  基於深度學習的中文命名實體識別
  5.5  任務:使用sklearn-crfsuite庫進行中文命名實體識別
    5.5.1  sklearn-crfsuite庫簡介
    5.5.2  使用sklearn-crfsuite庫進行中文命名實體識別的流程
  小結
  實訓  中文命名實體識別
  課後習題
第6章  關鍵詞提取
  6.1  關鍵詞提取簡介
  6.2  關鍵詞提取方法
    6.2.1  基於統計的方法
    6.2.2  基於語義的方法
  6.3  任務:自動提取文本關鍵詞

    6.3.1  文本預處理
    6.3.2  TF-IDF演算法
    6.3.3  TextRank演算法
    6.3.4  LSI演算法
  小結
  實訓
    實訓1  文本預處理
    實訓2  使用TF-IDF演算法提取關鍵詞
    實訓3  使用TextRank演算法提取關鍵詞
    實訓4  使用LSA演算法提取關鍵詞
  課後習題
第7章  文本向量化
  7.1  文本向量化簡介
  7.2  文本向量化的離散化表示
    7.2.1  獨熱編碼
    7.2.2  BoW模型
    7.2.3  TF-IDF方法
  7.3  文本向量化的分散式表示
    7.3.1  常見的文本向量化的分散式表示的方法
    7.3.2  Word2Vec模型
    7.3.3  Doc2Vec模型
  7.4  任務:文本相似度計算
    7.4.1  Word2Vec詞向量的訓練
    7.4.2  Doc2Vec段落向量的訓練
    7.4.3  計算文本相似度
  小結
  實訓
    實訓1  實現基於Word2Vec模型的新聞語料詞向量訓練
    實訓2  實現基於Doc2Vec模型的新聞語料段落向量訓練
    實訓3  使用Word2Vec模型和Doc2Vec模型計算新聞文本的相似度
  課後習題
第8章  文本分類和文本聚類
  8.1  文本挖掘簡介
  8.2  文本分類
    8.2.1  文本分類演算法
    8.2.2  文本分類的應用
    8.2.3  中文文本分類的步驟
  8.3  文本聚類
    8.3.1  文本聚類演算法
    8.3.2  文本聚類的應用
    8.3.3  中文文本聚類的步驟
  8.4  任務:垃圾簡訊分類
    8.4.1  數據讀取
    8.4.2  數據預處理
    8.4.3  詞頻統計
    8.4.4  分類
    8.4.5  模型評價
  8.5  任務:新聞文本聚類
    8.5.1  數據讀取
    8.5.2  文本預處理

    8.5.3  特徵提取
    8.5.4  聚類
    8.5.5  模型評價
  小結
  實訓
    實訓1  基於樸素貝葉斯的新聞分類
    實訓2  書名文本聚類分析
  課後習題
第9章  文本情感分析
  9.1  文本情感分析簡介
    9.1.1  文本情感分析的主要內容
    9.1.2  文本情感分析的常見應用
  9.2  文本情感分析的常用方法
    9.2.1  基於情感詞典的分析方法
    9.2.2  機器學習方法
    9.2.3  深度學習方法
  9.3  任務:基於情感詞典的文本情感分析
  9.4  任務:基於機器學習的文本情感分析
    9.4.1  基於樸素貝葉斯分類的文本情感分析
    9.4.2  基於snownlp的文本情感分析
  小結
  實訓
    實訓1  基於情感詞典的豆瓣評論文本情感分析
    實訓2  基於樸素貝葉斯的豆瓣評論文本情感分析
    實訓3  基於snownlp的豆瓣評論文本情感分析
  課後習題
第10章  NLP中的深度學習技術
  10.1  RNN概述
  10.2  RNN結構
    10.2.1  多對一結構
    10.2.2  等長的多對多結構
    10.2.3  非等長結構
  10.3  任務:基於LSTM的文本分類與情感分析
    10.3.1  文本分類
    10.3.2  情感分析
  10.4  任務:基於Seq2Seq的機器翻譯
    10.4.1  語料預處理
    10.4.2  構建模型
    10.4.3  定義優化器及損失函數
    10.4.4  訓練模型
    10.4.5  翻譯
  小結
  實訓
    實訓1  實現基於LSTM的文本分類
    實訓2  實現基於LSTM的情感分析
    實訓3  實現基於Seq2Seq的機器翻譯
  課後習題
第11章  智能問答系統
  11.1  智能問答系統簡介
  11.2  智能問答系統的主要組成部分

    11.2.1  問題理解
    11.2.2  知識檢索
    11.2.3  答案生成
  11.3  任務:基於Seq2Seq的智能問答系統
    11.3.1  讀取語料
    11.3.2  語料預處理
    11.3.3  模型構建
    11.3.4  模型訓練
    11.3.5  模型評價
  小結
  實訓  基於Seq2Seq模型的聊天機器人
  課後習題
第12章  大語言模型
  12.1  大語言模型簡介
  12.2  中文大語言模型
    12.2.1  國內中文大語言模型
    12.2.2  調用大語言模型API
  12.3  訊飛星火認知大模型
    12.3.1  訊飛星火認知大模型簡介
    12.3.2  調用訊飛星火認知大模型API
  12.4  訊飛星火認知大模型API程序開發應用
    12.4.1  常見應用
    12.4.2  API開發應用示例
  小結
  實訓  API開發相關應用
  課後習題
第13章  基於TipDM大數據挖掘建模平台實現垃圾簡訊分類
  13.1  在TipDM大數據挖掘建模平台上配置垃圾簡訊分類示例的流程
  13.2  數據讀取
  13.3  數據預處理
  13.4  模型構建與訓練
  小結
  實訓  基於TipDM大數據挖掘建模平台實現基於樸素貝葉斯的新聞分類
  課後習題

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032