幫助中心 | 我的帳號 | 關於我們

PyTorch語音識別實戰/人工智慧技術叢書

  • 作者:王曉華|責編:夏毓彥
  • 出版社:清華大學
  • ISBN:9787302655657
  • 出版日期:2024/03/01
  • 裝幀:平裝
  • 頁數:264
人民幣:RMB 69 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書使用PyTorch 2.0作為語音識別的基本框架,循序漸進地引導讀者從搭建環境開始,逐步深入到語音識別基本理論、演算法以及應用實踐,是較好的一本語音識別技術圖書。本書配套示例源碼、數據集、PPT課件等資源。
    本書分為13章,內容包括語音識別之路、PyTorch 2.0深度學習環境搭建、音頻信號處理的理論與Python實戰、音頻處理常用工具包Librosa詳解與實戰、基於DNN的語音情緒分類識別、一學就會的深度學習基礎演算法、基於PyTorch卷積層的語音情緒分類識別、詞映射與循環神經網路、基於Whisper的語音轉換實戰、注意力機制與注意力模型詳解、鳥叫的多標籤分類實戰、多模態語音轉換模型基礎、GLM架構多模態語音文字轉換實戰。
    本書內容詳盡、示例豐富,適合作為語音識別初學者、深度學習初學者、語音識別技術人員的必備參考書,同時也非常適合作為高等院校或高職高專深度學習、語音識別等課程的教材。

作者介紹
王曉華|責編:夏毓彥
    王曉華,電腦專業講師。長期講授面向對象程序設計、數據結構、Hadoop程序設計等研究生和本科生相關課程。主要研究方向為雲計算、數據挖掘。曾主持和參與多項國家和省級科研課題,獨立科研項目獲省級成果認定,發表過多篇論文,擁有一項專利。著有《Spark MLlib機器學習實踐》《TensorFlow深度學習應用實踐》《OpenCV+TensorFlow深度學習與電腦視覺實戰》《TensorFlow 2.0深度學習從零開始學》等圖書。

目錄
第1章  語音識別之路
  1.1  何謂語音識別
  1.2  語音識別為什麼那麼難
  1.3  語音識別之路語音識別的發展歷程
    1.3.1  高斯混合-隱馬爾科夫時代
    1.3.2  深度神經網路-隱馬爾科夫時代
    1.3.3  基於深度學習的端到端語音識別時代
    1.3.4  多模態架構的語音識別與轉換
  1.4  基於深度學習的語音識別的未來
  1.5  本章小結
第2章  PyTorch 2.0深度學習環境搭建
  2.1  環境搭建1:安裝Python
    2.1.1  Miniconda的下載與安裝
    2.1.2  PyCharm的下載與安裝
    2.1.3  Python代碼小練習:計算softmax函數
  2.2  環境搭建2:安裝PyTorch 2.0
    2.2.1  Nvidia 10/20/30/40系列顯卡選擇的GPU版本
    2.2.2  PyTorch 2.0 GPU Nvidia運行庫的安裝
    2.2.3  PyTorch 2.0小練習:Hello PyTorch
  2.3  實戰:基於特徵詞的語音喚醒
    2.3.1  數據的準備
    2.3.2  數據的處理
    2.3.3  模型的設計
    2.3.4  模型的數據輸入方法
    2.3.5  模型的訓練
    2.3.6  模型的結果和展示
  2.4  本章小結
第3章  音頻信號處理的理論與Python實戰
  3.1  音頻信號的基本理論詳解
    3.1.1  音頻信號的基本理論
    3.1.2  音頻信號的時域與頻域
  3.2  傅里葉變換詳解
    3.2.1  傅里葉級數
    3.2.2  連續到離散的計算
    3.2.3  Python中的傅里葉變換實戰
  3.3  快速傅里葉變換與短時傅里葉變換
    3.3.1  快速傅里葉變換Python實戰
    3.3.2  短時傅里葉變換Python實戰
  3.4  梅爾頻率倒譜係數Python實戰
    3.4.1  梅爾頻率倒譜係數的計算過程
    3.4.2  梅爾頻率倒譜係數的Python實現
  3.5  本章小結
第4章  音頻處理工具包Librosa詳解與實戰
  4.1  音頻特徵提取Librosa包基礎使用
    4.1.1  基於Librosa的音頻信號讀取
    4.1.2  基於Librosa的音頻多種特徵提取
    4.1.3  其他基於Librosa的音頻特徵提取工具
  ……
第5章  基於深度神經網路的語音情緒分類識別
第6章  一學就會的深度學習基礎演算法

第7章  基於PyTorch卷積層的語音情緒分類識別
第8章  詞映射與循環神經網路
第9章  基於Whisper的語音轉換實戰
第10章  注意力機制
第11章  鳥叫的多標籤分類實戰
第12章  多模態語音轉換模型基礎
第13章  GLM架構多模態語音文字轉換實戰

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032