幫助中心 | 我的帳號 | 關於我們

語音識別基本法(Kaldi實踐與探索)

  • 作者:湯志遠//李藍天//王東//蔡雲麒//石穎等|責編:董英
  • 出版社:電子工業
  • ISBN:9787121404788
  • 出版日期:2021/02/01
  • 裝幀:平裝
  • 頁數:243
人民幣:RMB 89 元      售價:
放入購物車
加入收藏夾

內容大鋼
    語音是新一代人機交互的方式,語音識別是實現這一方式的關鍵環節,也是實現人工智慧的基本步驟之一。
    本書結合當下使用廣泛的Kaldi工具,對語音識別的基本概念和流程進行了詳細的講解,包括GMM-HMM、DNN-HMM、端到端等常用結構,並探討了語音識別在實際應用中的問題,包括說話人自適應、環境魯棒性、小語種語音識別、關鍵詞識別與嵌入式應用等,也對語音識別技術的相關前沿課題進行了介紹,包括說話人識別、語種識別、情緒識別、語音合成等。
    本書的寫作以讓讀者快速、直觀地理解概念為目標,只展示最基本的數學公式,同時注重理論與實踐相結合,在對語音技術各個概念的講解中都展示了相應的Kaldi語音處理命令,以便讓讀者進一步融會貫通。
    本書適用於語音識別及相關技術的初學者、在校學生,以及基於Kaldi進行產品研發的同仁,也可以作為語音技術從業者的參考書籍。

作者介紹
湯志遠//李藍天//王東//蔡雲麒//石穎等|責編:董英

目錄
Ⅰ  語音識別基礎
  1  語音是什麼
    1.1  大音希聲
    1.2  產生語音
    1.3  看見語音
    1.4  小結
  2  語音識別方法
    2.1  總體思路
    2.2  聲學模型GMM-HMM
      2.2.1  HMM
      2.2.2  GMM
      2.2.3  訓練
    2.3  聲學模型DNN-HMM
    2.4  語言模型
      2.4.1  N-Gram
      2.4.2  RNN語言模型
    2.5  解碼器
    2.6  端到端結構
      2.6.1  CTC
      2.6.2  RNN
      2.6.3  Attention
      2.6.4  Self-Attention
      2.6.5  CTC+Attension
    2.7  開源工具和硬體平台
      2.7.1  深度學習平台
      2.7.2  語音識別工具
      2.7.3  硬體加速
    2.8  小結
  3  完整的語音識別實驗
    3.1  語音識別實驗的步驟
    3.2  語音識別實驗的運行
    3.3  其他語音任務案例
    3.4  小結
  4  前端處理
    4.1  數據準備
    4.2  聲學特徵提取
      4.2.1  預加重(Pre-Emphasis)
      4.2.2  加窗(Windowing)
      4.2.3  離散傅里葉變換(DFT)
      4.2.4  FBank特徵
      4.2.5  MFCC特徵
    4.3  小結
  5  訓練與解碼
    5.1  GMM-HMM基本流程
      5.1.1  訓練
      5.1.2  解碼
      5.1.3  強制對齊
    5.2  DNN-HMM基本流程
    5.3  DNN配置詳解
      5.3.1  component和component-node

      5.3.2  屬性與描述符
      5.3.3  不同組件的使用方法
      5.3.4  LSTM配置範例
    5.4  小結
Ⅱ  語音識別實際問題
  6  說話人自適應
    6.1  什麼是說話人自適應
    6.2  特徵域自適應與聲道長度規整
    6.3  聲學模型自適應:HMM-GMM系統
      6.3.1  基於MAP的自適應方法
      6.3.2  基於MLLR的自適應方法
    6.4  聲學模型自適應:DNN系統
      6.4.1  模型參數自適應學習
      6.4.2  基於說話人向量的條件學習
    6.5  領域自適應
    6.6  小結
  7  雜訊對抗與環境魯棒性
    7.1  環境魯棒性簡介
    7.2  前端信號處理方法
      7.2.1  語音增強方法
      7.2.2  特徵域補償方法
      7.2.3  基於DNN的特徵映射
    7.3  後端模型增強方法
      7.3.1  簡單模型增強方法
      7.3.2  模型自適應方法
      7.3.3  多場景學習和數據增強方法
    7.4  小結
  8  小語種語音識別
    8.1  小語種語音識別面臨的主要困難
    8.2  基於音素共享的小語種語音識別
    8.3  基於參數共享的小語種語音識別方法
    8.4  其他小語種語音識別方法
      8.4.1  Grapheme建模
      8.4.2  網路結構與訓練方法
      8.4.3  數據增強
    8.5  小語種語音識別實踐
      8.5.1  音頻數據採集
      8.5.2  文本數據採集
      8.5.3  文本正規化
      8.5.4  發音詞典設計
    8.6  小結
  9  關鍵詞識別與嵌入式應用
    9.1  基本概念
    9.2  評價指標
    9.3  實現方法
      9.3.1  總體框架
      9.3.2  基於LVCSR的KWS系統
      9.3.3  基於示例的KWS
      9.3.4  端到端KWS
      9.3.5  滑動窗口

    9.4  嵌入式應用
      9.4.1  模型壓縮
      9.4.2  遷移學習
      9.4.3  網路結構搜索與設計
    9.5  小結
Ⅲ  前沿課題
  10  說話人識別
    10.1  什麼是說話人識別
      10.1.1  基本概念
      10.1.2  技術難點
      10.1.3  發展歷史
    10.2  基於知識驅動的特徵設計
    10.3  基於線性高斯的統計模型
      10.3.1  GMM-UBM
      10.3.2  因子分析
    10.4  基於數據驅動的特徵學習
      10.4.1  模型結構
      10.4.2  訓練策略
      10.4.3  多任務學習
    10.5  基於端到端的識別模型
    10.6  小結
  11  語種識別
    11.1  什麼是語種識別
    11.2  語言的區分性特徵
    11.3  統計模型方法
      11.3.1  基於聲學特徵的識別方法
      11.3.2  基於發音單元的語種識別方法
    11.4  深度學習方法
      11.4.1  基於DNN的統計模型方法
      11.4.2  基於DNN的端到端建模
      11.4.3  基於DNN的語言嵌入
    11.5  Kaldi中的語種識別
    11.6  小結
  12  語音情緒識別
    12.1  什麼是語音情緒識別
    12.2  語音情緒模型
      12.2.1  離散情緒模型
      12.2.2  連續情緒模型
    12.3  語音情緒特徵提取
      12.3.1  語音情緒識別中的典型特徵
      12.3.2  局部特徵與全局特徵
    12.4  語音情緒建模
      12.4.1  離散情緒模型
      12.4.2  連續情緒模型
    12.5  深度學習方法
      12.5.1  基礎DNN方法
      12.5.2  特徵學習
      12.5.3  遷移學習
      12.5.4  多任務學習
    12.6  小結

  13  語音合成
    13.1  激勵-響應模型
    13.2  參數合成
    13.3  拼接合成
    13.4  統計模型合成
    13.5  神經模型合成
    13.6  基於注意力機制的合成系統
    13.7  小結
參考文獻
索引

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032