幫助中心 | 我的帳號 | 關於我們

語音識別(原理與應用第3版)/通用智能與大模型叢書

  • 作者:洪青陽//李琳|責編:鄭柳潔
  • 出版社:電子工業
  • ISBN:9787121499326
  • 出版日期:2025/04/01
  • 裝幀:平裝
  • 頁數:284
人民幣:RMB 119 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書系統地介紹了語音識別的原理與應用。全書共16章,原理部分涵蓋聲學特徵、隱馬爾可夫模型(HMM)、高斯混合模型(GMM)、深度神經網路(DNN)、語言模型、加權有限狀態轉換器(WFST)和語音大模型,重點描述了GMM-HMM、DNN-HMM和端到端(E2E)三種語音識別框架;應用部分包含Kaldi、WeNet、FunASR和sherpa-onnx等工業應用實踐介紹,內容主要來自工程經驗,極具實用性。
    本書可以作為普通高等學校人工智慧、電腦科學與技術、電子信息工程、自動化等專業的本科生及研究生的教材,也適合作為從事智能語音系統的科研人員和工程技術人員的參考書。

作者介紹
洪青陽//李琳|責編:鄭柳潔

目錄
第1章  語音識別概論
  1.1  語音的產生和感知
  1.2  語音識別過程
  1.3  語音識別發展歷史
  1.4  國內語音識別現狀
  1.5  語音識別建模方法
    1.5.1  DTW
    1.5.2  GMM-HMM
    1.5.3  DNN-HMM
    1.5.4  E2E模型
  1.6  語音識別開源工具
  1.7  常用語音識別資料庫
  1.8  語音識別評價指標
參考文獻
第2章  語音信號基礎
  2.1  聲波的特性
  2.2  聲音的接收裝置
    2.2.1  麥克風的性能指標
    2.2.2  麥克風陣列
  2.3  聲音的採樣
  2.4  聲音的量化
  2.5  語音的編碼
  2.6  WAV文件格式
  2.7  WAV文件分析
  2.8  本章小結
思考練習題
第3章  語音特徵提取
  3.1  預處理
  3.2  短時傅里葉變換
  3.3  聽覺特性
  3.4  線性預測
  3.5  倒譜分析
  3.6  常用的聲學特徵
    3.6.1  語譜圖
    3.6.2  FBank
    3.6.3  MFCC
    3.6.4  PLP
  3.7  本章小結
思考練習題
第4章  HMM
  4.1  HMM的基本概念
    4.1.1  馬爾可夫鏈
    4.1.2  雙重隨機過程
    4.1.3  HMM的定義
  4.2  HMM的三個基本問題
    4.2.1  模型評估問題
    4.2.2  最佳路徑問題
    4.2.3  模型訓練問題
  4.3  本章小結
參考文獻

思考練習題
第5章  GMM-HMM
  5.1  概率統計
  5.2  高斯分佈
  5.3  GMM
    5.3.1  初始化
    5.3.2  重估計
  5.4  GMM與HMM的結合
  5.5  GMM-HMM的訓練
  5.6  模型自適應
    5.6.1  MAP
    5.6.2  MLLR
    5.6.3  fMLLR
    5.6.4  SAT
  5.7  本章小結
參考文獻
思考練習題
第6章  基於HMM的語音識別
  6.1  建模單元
  6.2  發音過程與HMM狀態
  6.3  串接HMM
  6.4  固定語法的識別
  6.5  隨機語法的識別
  6.6  音素的上下文建模
    6.6.1  協同發音
    6.6.2  上下文建模
    6.6.3  決策樹
    6.6.4  問題集
    6.6.5  三音子模型的訓練
  6.7  本章小結
思考練習題
第7章  DNN-HMM
  7.1  深度學習
  7.2  DNN
    7.2.1  激活函數
    7.2.2  損失函數
    7.2.3  梯度下降演算法
  7.3  DNN與HMM的結合
  7.4  不同的DNN結構
    7.4.1  CNN
    7.4.2  LSTM
    7.4.3  GRU
    7.4.4  TDNN
    7.4.5  TDNN
  7.5  本章小結
參考文獻
思考練習題
第8章  語言模型
  8.1  n-gram模型
  8.2  評價指標——困惑度

  8.3  平滑技術
    8.3.1  Good-Turing折扣法
    8.3.2  Witten-Bell折扣法
    8.3.3  Katz 回退法
    8.3.4  Jelinek-Mercer插值法
    8.3.5  Kneser-Ney插值法
  8.4  語言模型的訓練
  8.5  神經網路語言模型
  8.6  本章小結
參考文獻
思考練習題
第9章  WFST解碼器
  9.1  基於動態網路的Viterbi解碼
  9.2  WFST理論
  9.3  HCLG構建
    9.3.1  H的構建
    9.3.2  C的構建
    9.3.3  L的構建
    9.3.4  G的構建
    9.3.5  HCLG合併
  9.4  WFST的Viterbi解碼
    9.4.1  Token的定義
    9.4.2  Viterbi演算法
  9.5  Lattice 解碼
    9.5.1  主要數據結構
    9.5.2  令牌傳播過程
    9.5.3  剪枝策略
    9.5.4  Lattice
  9.6  本章小結
參考文獻
思考練習題
第10章  Kaldi訓練實例
  10.1  下載與安裝Kaldi
    10.1.1  獲取源代碼
    10.1.2  編譯
  10.2  創建和配置基本的工程目錄
  10.3  aishell語音識別工程
    10.3.1  數據集映射目錄準備
    10.3.2  詞典準備和lang目錄生成
    10.3.3  語言模型訓練
    10.3.4  聲學特徵提取與倒譜均值歸一化
    10.3.5  聲學模型訓練與強制對齊
    10.3.6  解碼測試與指標計算
  10.4  本章小結
第11章  端到端語音識別
  11.1  CTC
    11.1.1  損失函數
    11.1.2  前向演算法
    11.1.3  後向演算法
    11.1.4  求導過程

    11.1.5  CTC 解碼
  11.2  RNN
  11.3  基於Attention 的Encoder-Decoder模型
  11.4  Hybrid CTC/Attention
  11.5  本章小結
參考文獻
思考練習題
第12章  Transformer結構
  12.1  模型結構
  12.2  卷積下採樣
  12.3  位置編碼
  12.4  自注意力機制
    12.4.1  自注意力
    12.4.2  多頭注意力機制
  12.5  編碼器結構
    12.5.1  殘差連接
    12.5.2  層歸一化
    12.5.3  前饋層
  12.6  解碼器結構
    12.6.1  交叉注意力
    12.6.2  掩蔽注意力
  12.7  訓練和推理
  12.8  Whisper 實例
  12.9  本章小結
參考文獻
思考練習題
第13章  Conformer流識別
  13.1  Conformer結構
  13.2  卷積下採樣
  13.3  編碼器結構
    13.3.1  前饋模塊
    13.3.2  多頭自注意力模塊
    13.3.3  卷積模塊
  13.4  相對位置編碼
  13.5  流識別機制
  13.6  本章小結
參考文獻
思考練習題
第14章  語音大模型
  14.1  LLM
  14.2  音頻離散化
  14.3  語音文本對齊
  14.4  流式打斷
  14.5  對話大模型
  14.6  本章小結
參考文獻
第15章  WeNet實踐
  15.1  數據準備
    15.1.1  映射文件準備
    15.1.2  CMVN 計算

    15.1.3  詞典生成
    15.1.4  數據打包
  15.2  WeNet 配置文件
  15.3  聲學模型訓練
    15.3.1  聲學模型訓練腳本
    15.3.2  Transformer模型訓練
    15.3.3  Conformer模型訓練
    15.3.4  Unified Conformer模型訓練
    15.3.5  U2++ Conformer模型訓練
  15.4  Python環境解碼
  15.5  WeNet模型部署
    15.5.1  模型導出
    15.5.2  語言模型訓練
    15.5.3  結合語言模型的解碼
  15.6  WeNet解碼結果可視化
  15.7  本章小結
參考文獻
第16 章  工業應用實踐
  16.1  應用場景
  16.2  引擎優化
    16.2.1  Kaldi方案
    16.2.2  WeNet方案
    16.2.3  Whisper 微調
  16.3  工程部署
    16.3.1  SDK 封裝
    16.3.2  語音雲平台
    16.3.3  Kaldi嵌入式移植
    16.3.4  WeNet端側部署
    16.3.5  Paraformer與FunASR部署
    16.3.6  sherpa-onnx部署
  16.4  Zipformer 實踐
    16.4.1  Zipformer
    16.4.2  Transducer流識別
    16.4.3  icefall訓練
  16.5  本章小結

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032