幫助中心 | 我的帳號 | 關於我們

聲紋技術(從核心演算法到工程實踐)

  • 作者:王泉|責編:鄭柳潔
  • 出版社:電子工業
  • ISBN:9787121395291
  • 出版日期:2020/09/01
  • 裝幀:平裝
  • 頁數:278
人民幣:RMB 99 元      售價:
放入購物車
加入收藏夾

內容大鋼
    這是第一本系統性地介紹聲紋識別、聲紋分割聚類及聲紋在語音識別、語音合成、人聲分離等領域中應用的技術書。本書內容全面且緊隨時代前沿,不僅涵蓋了早至20世紀60年代的經典方法,而且以大量篇幅著重介紹了深度學習時代的最新技術。本書注重理論與實踐的結合,除了配備大量實踐案例與習題,還有專門章節介紹聲紋技術在實際工程部署方面的諸多課題。
    本書面向大學與研究機構的學生、教研人員,以及企事業單位從事聲紋技術相關工作的工程師、架構師和產品經理等。

作者介紹
王泉|責編:鄭柳潔
    王泉     美國谷歌公司資深軟體工程師、聲紋識別與語言識別團隊主管。作者畢業於清華大學自動化系,后取得美國倫斯勒理工學院電腦工程專業博士學位,曾在美國亞馬遜公司參與亞馬遜智能音箱語音助手Alexa的研發。在谷歌任職期間,作者帶領團隊將先進的聲紋技術部署到了大量產品中,使得谷歌智能音箱成為市面上第一款支持多用戶模式的同類產品。此外,作者在聲紋識別、聲紋分割聚類、人聲分離、語音檢測、語言識別及語音合成等諸多領域擁有大量專利,發表過多篇重量級論文,並開創了監督式聲紋分割聚類及聲紋定向人聲分離這兩個新興研究方向。作者的工作曾被VentureBeat、Techcrunch、Engadget、CNET等國際著名科技媒體專題報道。

目錄
1 聲紋技術的前世今生
  1.1  什麼是聲紋
  1.2  最早的聲紋技術
  1.3  聲紋技術的發展
    1.3.1  聲紋技術與音頻信號處理
    1.3.2  模板匹配方法
    1.3.3  早期統計學方法
    1.3.4  高斯混合模型
    1.3.5  聯合因子分析與 i-vector
  1.4  大變革:深度學習時代的來臨
  1.5  新的機遇:智能語音助手的普及
2 音頻信號處理基礎
  2.1  欲懂聲紋,先學音頻
  2.2  聲學基礎
    2.2.1  語音的產生
    2.2.2  正弦波
    2.2.3  頻譜
    2.2.4  聽覺與感知
    2.2.5  聽覺的非線性
  2.3  音頻信號基礎概念
    2.3.1  模擬音頻信號
    2.3.2  模擬轉數字:採樣與量化
    2.3.3  音頻編碼
    2.3.4  音頻文件格式
    2.3.5  動手實踐:SoX 程序
  2.4  從信號到特徵:短時分析
    2.4.1  傳統特徵分析的不足
    2.4.2  分幀
    2.4.3  窗函數處理
    2.4.4  幀疊加與幀採樣
  2.5  常用的音頻特徵
    2.5.1  時域特徵
    2.5.2  從時域到頻域:傅里葉變換
    2.5.3  頻譜、倒譜、時頻譜和功率譜
    2.5.4  感知線性預測
    2.5.5  梅爾倒譜係數
    2.5.6  功率正則化倒譜係數
    2.5.7  動手實踐:用 LibROSA 提取 MFCC 特徵
3 聲紋識別技術
  3.1  聲紋識別:聲紋技術的核心
    3.1.1  名稱與概念
    3.1.2  按任務分類
    3.1.3  按文本內容分類
    3.1.4  系統流程
  3.2  聲紋識別的評價指標
    3.2.1  相似匹配
    3.2.2  錄入集與驗證集
    3.2.3  ROC 曲線及曲線下面積
    3.2.4  等錯率
    3.2.5  最小檢測代價函數

    3.2.6  辨認準確率
  3.3  深度學習之前的方法
    3.3.1  早期方法
    3.3.2  高斯混合模型方法
    3.3.3  高斯混合模型-通用背景模型
    3.3.4  高斯混合模型-支持向量機
    3.3.5  聯合因子分析
    3.3.6  i-vector 方法
  3.4  基於深度學習的方法
    3.4.1  關於深度學習的簡單介紹
    3.4.2  聲紋識別中的神經網路
    3.4.3  運行時的推理邏輯
    3.4.4  聲紋識別中的損失函數
  3.5  聲紋識別中的數據處理
    3.5.1  聲紋識別的數據需求
    3.5.2  數據預處理
    3.5.3  數據增強
    3.5.4  多數據集訓練
  3.6  聲紋驗證
    3.6.1  驗證方法
    3.6.2  分數正則化
  3.7  常用數據集
    3.7.1  TIMIT
    3.7.2  VCTK
    3.7.3  LibriSpeech
    3.7.4  LibriVox
    3.7.5  VoxCeleb
    3.7.6  CN-Celeb
    3.7.7  BookTubeSpeech
    3.7.8  維基百科語音庫
    3.7.9  DeepMine
4 聲紋識別的工程部署
  4.1  從模型到產品
    4.1.1  模型不等於產品
    4.1.2  軟體工程基本概念
  4.2  聲紋識別常見工程問題
    4.2.1  錄入階段的工程問題
    4.2.2  識別階段的工程問題
    4.2.3  語音處理引擎:流式信號處理與計算圖
    4.2.4  模型版本迭代
    4.2.5  在線代理指標
  4.3  全設備端部署
    4.3.1  部署方式的分類依據
    4.3.2  版本迭代更新
    4.3.3  資源限制:設備端的最大挑戰
    4.3.4  模型量化技術
  4.4  全伺服器端部署
    4.4.1  全伺服器端架構
    4.4.2  版本迭代更新
    4.4.3  負載均衡與故障處理

  4.5  複合式部署
    4.5.1  聲紋信息的敏感性
    4.5.2  複合式架構
    4.5.3  版本迭代更新
5 聲紋分割聚類技術
  5.1  分割聚類:更好地理解對話語音
    5.1.1  關於名稱與歷史
    5.1.2  常見應用
    5.1.3  常見通用架構
    5.1.4  聲紋分割聚類的不同任務類型
  5.2  聲紋分割聚類與多說話人識別
    5.2.1  聲源分離
    5.2.2  連續聲紋識別
    5.2.3  說話人轉換檢測
  5.3  聚類分析
    5.3.1  聚類不等於分類
    5.3.2  在線聚類技術
    5.3.3  離線聚類技術
    5.3.4  基於離線聚類的在線聲紋分割聚類
  5.4  二次分割方法
    5.4.1  基於分類的二次分割
    5.4.2  基於隱馬爾可夫模型的二次分割
  5.5  監督式方法
    5.5.1  聚類方法的一些問題
    5.5.2  從傳統聚類到監督式方法
    5.5.3  無界交織態循環神經網路
    5.5.4  判別神經聚類
    5.5.5  置換不變性訓練
    5.5.6  端到端模型
    5.5.7  與語音識別的聯合訓練
  5.6  聲紋分割聚類的評價指標
    5.6.1  評價指標的置換不變性
    5.6.2  分割聚類錯誤率
    5.6.3  詞分割聚類錯誤率
    5.6.4  其他指標
  5.7  常用數據集
    5.7.1  CALLHOME
    5.7.2  NIST SRE 2000
    5.7.3  ICSI
    5.7.4  Fisher
    5.7.5  AMI
6 聲紋技術的其他應用
  6.1  聲紋的力量
  6.2  用於語音識別
    6.2.1  語音識別技術概述
    6.2.2  聲紋自適應聲學模型
  6.3  用於語音合成
    6.3.1  語音合成技術概述
    6.3.2  聲紋克隆:合成任意說話人的聲音
  6.4  用於語音檢測

    6.4.1  語音檢測技術概述
    6.4.2  個性化語音檢測
  6.5  用於人聲分離
    6.5.1  人聲分離技術概述
    6.5.2  定向人聲分離
  6.6  聲紋轉換
  6.7  聲紋還原度測試
    6.7.1  音頻處理的聲紋保留性質
    6.7.2  音頻編碼格式的還原度測試
    6.7.3  語音合成技術的還原度測試
7 聲紋技術的未來
  7.1  概述
  7.2  聲紋技術的挑戰
    7.2.1  對通道變化的魯棒性
    7.2.2  對聲紋變化的魯棒性
    7.2.3  反欺詐
  7.3  對更多數據的需求
    7.3.1  更為多樣的數據增強
    7.3.2  用於訓練的合成語音
    7.3.3  自動數據採集
  7.4  聲紋技術的未來研究方向
    7.4.1  對抗學習
    7.4.2  多模態說話人識別
    7.4.3  聯邦學習
    7.4.4  集成學習
    7.4.5  同時完成聲紋分割聚類與人聲分離
  7.5  結語
中英辭彙對照
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032