內容大鋼
本書為數字語音信息處理課程教材,結合信號處理、聲學、電腦科學、統計學等多個學科,系統介紹了數字語音信息處理的基礎知識、基本原理、重要方法以及該學科領域近年來取得的一些重大研究成果與技術突破。本書遵循了科學性、實用性、創新性原則。全書共10章,內容包括:緒論、語音產生與聽覺感知、語音信號特徵、常用建模演算法、語音編碼和質量評估、語音識別、說話人識別、語音合成、語音增強、語音分離。另外,在本書的每章末尾都加入了思考題與習題,供讀者思考、練習。
本書以幫助讀者快速、直觀地理解概念為目標,展示了基本的數學公式,同時注重理論與實踐相結合,在每節都詳細地闡述了相關知識和具體方法,以便讀者進一步融會貫通。
本書可作為高等院校電腦科學與技術、通信工程、電子信息、人工智慧等相關專業及學科的高年級本科生、研究生教材,也可供相關領域的科研及工程技術人員參考。
目錄
第1章 緒論
1.1 語音信號處理介紹
1.2 語音信號處理應用
思考題與習題
參考文獻
第2章 語音產生與聽覺感知
2.1 語音產生
2.1.1 發音器官
2.1.2 發音原理
2.2 心理聲學原理
2.2.1 聽覺範圍
2.2.2 絕對聽閾
2.2.3 臨界頻帶
2.2.4 同時掩蔽
2.2.5 異時掩蔽
本章小結
思考題與習題
參考文獻
第3章 語音信號特徵
3.1 時域特徵
3.1.1 短時平均過零率
3.1.2 短時平均幅度
3.1.3 短時平均能量
3.1.4 短時自相關函數
3.2 頻域特徵
3.2.1 語譜圖特徵
3.2.2 濾波器組特徵
3.3 倒譜域特徵
3.3.1 同態信號處理
3.3.2 倒譜特徵
3.3.3 復倒譜特徵
3.3.4 Mel頻率倒譜特徵
3.3.5 動態倒譜特徵
3.4 線性預測特徵
3.4.1 LPC基本原理
3.4.2 LPC的求解
3.4.3 LPC譜估計
3.4.4 LPC復倒譜
3.4.5 感知線性預測
3.4.6 LPC的推演參數
本章小結
思考題與習題
參考文獻
第4章 常用建模演算法
4.1 矢量量化
4.1.1 VQ基本原理
4.1.2 VQ的失真測度
4.1.3 VQ模型學習方法
4.1.4 VQ模型的改進
4.2 高斯混合模型
4.2.1 高斯混合模型的基本原理
4.2.2 期望最大化演算法
4.3 隱馬爾可夫模型
4.3.1 HMM的基本概念
4.3.2 HMM的三個基本問題
4.3.3 HMM的結構類型
4.3.4 GMM-HMM演算法
4.3.5 HMM的自適應演算法
4.4 支持向量機
4.4.1 SVM的基本原理
4.4.2 對偶優化
4.4.3 非線性SVM
4.4.4 支持向量回歸
4.5 神經網路
4.5.1 NN的基本概念
4.5.2 多層感知器
4.5.3 誤差反向傳播演算法
4.5.4 NN的過擬合問題
4.6 深度神經網路
4.6.1 淺層網路到深層網路
4.6.2 DNN的訓練
4.6.3 常用的DNN模型
4.6.4 Transformer的基本概念
4.6.5 BERT模型和GPT模型
本章小結
思考題與習題
參考文獻
第5章 語音編碼和質量評估
5.1 量化和熵編碼
5.1.1 概率密度函數
5.1.2 標量量化
5.1.3 矢量量化
5.1.4 比特分配演算法
5.1.5 熵編碼
5.2 波形編碼
5.2.1 脈衝編碼調製
5.2.2 差分脈衝編碼調製
5.2.3 自適應差分脈衝編碼調製
5.3 參數編碼
5.3.1 線性預測編碼
5.3.2 正弦變換編碼
5.4 混合編碼
5.5 變速率編碼
5.6 神經網路語音編碼
5.7 編碼器主要屬性
5.7.1 帶寬
5.7.2 編碼速率
5.8 質量評估
5.8.1 主觀評價
5.8.2 客觀評價
本章小結
思考題與習題
參考文獻
第6章 語音識別
6.1 模版匹配方法
6.1.1 矢量量化技術
6.1.2 動態時間規整技術
6.2 統計概率模型方法
6.2.1 基於GMM-HMM的語音識別方法
6.2.2 基於DNN-HMM的語音識別方法
6.3 端到端語音識別方法
6.3.1 連接時序分類模型
6.3.2 遞歸神經網路轉換器模型
6.3.3 LAS模型
6.3.4 聯合CTC-注意力模型
本章小結
思考題與習題
參考文獻
第7章 說話人識別
7.1 基於高斯混合模型的說話人識別
7.1.1 GMM說話人識別
7.1.2 GMM-UBM說話人識別
7.1.3 GMM-SVM說話人識別
7.2 基於i-vector的說話人識別
7.2.1 基於GMM的i-vector說話人識別
7.2.2 基於DNN的i-vector說話人識別
7.2.3 說話人相似度打分
7.3 基於深度神經網路的說話人識別
7.3.1 x-vector說話人識別
7.3.2 ResNet說話人識別
7.3.3 ECAPA-TDNN說話人識別
7.3.4 基於預訓練大模型的說話人識別
7.4 說話人日誌技術
7.4.1 基於分割聚類的說話人日誌
7.4.2 基於端到端的說話人日誌技術
7.4.3 難點和發展方向
本章小結
思考題與習題
參考文獻
第8章 語音合成
8.1 參數合成法
8.2 波形拼接合成法
8.3 基於隱馬爾可夫的語音合成
8.3.1 模型訓練階段
8.3.2 語音合成階段
8.3.3 HMM語音合成的關鍵
8.4 基於深度學習的語音合成
8.4.1 Tacotron
8.4.2 FastSpeech
8.4.3 WaveNet
8.4.4 VITS
8.4.5 GPT-SoVITS
本章小結
思考題與習題
參考文獻
第9章 語音增強
9.1 研究背景
9.2 信號模型與評價指標
9.2.1 信號模型
9.2.2 語音質量評價標準
9.3 單通道方法
9.3.1 譜減法
9.3.2 維納濾波
9.3.3 深度學習方法
9.4 多通道方法
9.4.1 信號模型與特徵提取
9.4.2 基於數字信號處理的波束形成方法
9.4.3 基於神經網路時頻掩蔽的波束形成方法
9.4.4 基於神經網路的多通道語音增強方法
9.5 混響環境下的語音信號增強方法
9.5.1 信號模型
9.5.2 WPE去混響方法
本章小結
思考題與習題
參考文獻
第10章 語音分離
10.1 研究背景
10.2 獨立成分分析
10.2.1 定義
10.2.2 ICA目標函數
10.2.3 優化演算法
10.3 非負矩陣分解
10.3.1 基於NMF的語音分離
10.3.2 NMF演算法
10.3.3 加稀疏約束的NMF演算法
10.3.4 加權NMF演算法
10.4 稀疏分量分析
10.4.1 稀疏分量分析基本理論
10.4.2 信號稀疏化處理
10.4.3 混合矩陣估計
10.4.4 源信號重構
10.5 機器學習方法
10.5.1 深度聚類演算法
10.5.2 置換不變性訓練演算法
10.5.3 時域端到端語音分離法
本章小結
思考題與習題
參考文獻