幫助中心 | 我的帳號 | 關於我們

語音與音樂信號處理輕鬆入門(基於Python與PyTorch)/跟我一起學人工智慧

  • 作者:姚利民|責編:趙佳霓
  • 出版社:清華大學
  • ISBN:9787302679110
  • 出版日期:2025/03/01
  • 裝幀:平裝
  • 頁數:226
人民幣:RMB 69 元      售價:
放入購物車
加入收藏夾

內容大鋼
    近年來人工智慧技術突飛猛進,以語音識別為代表的音頻處理技術取得了大量突破,但該領域內理論結合實戰的入門書籍卻較為缺乏,本書旨在為有志學習音頻信號處理的讀者提供一本實用的入門書籍。
    本書共13章,第1章和第2章是基礎部分,包括聲學基礎知識及Python基礎等內容;第3到4章介紹了音頻信號的獲取及分析方法;第5?8章介紹了語音識別基礎、傳統語音識別技術及語音識別、語音合成的實戰技術;第9章和第10章介紹了常用的音樂分析方法及Python編曲等內容;第11?13章介紹了深度學習的基礎知識及如何用PyTorch對語音和音樂信號進行分析處理。
    本書以通俗易懂的語言、圖文並茂的講解力圖使讀者在短時間內掌握音頻信號處理的基本技術。本書既可供包括高校學生在內的各類初學者快速入門、也可供該領域的專業技術人員及愛好者參考。

作者介紹
姚利民|責編:趙佳霓
    姚利民,畢業於東南大學,長期在外資企業從事管理工作,同時致力於A0及圖像處理的研究。2012年赴某知名跨國企業全球總部工作,回國后自主創業。目前主要從事A0研究,專攻棋類博弈和電腦視覺。有感於相關資源的匱乏,主講基於Java的OpenCV課程,短期內獲大量關注。

目錄
本書源碼
第1章  基礎知識
  1.1  聲學基礎
    1.1.1  聲音的產生和傳播
    1.1.2  聲波的描述
    1.1.3  聲音的客觀衡量
    1.1.4  聲音的主觀屬性
  1.2  音頻文件格式
    1.2.1  WAV文件格式
    1.2.2  MP3文件格式
    1.2.3  MIDI文件格式
    1.2.4  其他文件格式
  1.3  Praat簡介
    1.3.1  Praat概要
    1.3.2  Praat的下載和安裝
    1.3.3  Praat的主要功能
    1.3.4  Praat基礎操作
第2章  Python基礎
  2.1  Python簡介
  2.2  Anaconda的安裝
  2.3  主要Python庫
  2.4  Python繪圖基礎
    2.4.1  散點圖的繪製
    2.4.2  線性圖的繪製
    2.4.3  圖形的美化
    2.4.4  子圖的繪製
  2.5  FFmpeg的安裝與配置
第3章  音頻信號的獲取
  3.1  採樣與量化
    3.1.1  採樣相關概念
    3.1.2  從話筒拾取信號
  3.2  讀取音頻文件
  3.3  從視頻文件提取
  3.4  聲音的合成
    3.4.1  純音的生成
    3.4.2  複合音的生成
    3.4.3  音效的合成
第4章  音頻信號分析初步
  4.1  分幀
  4.2  加窗
  4.3  信號的時域分析
    4.3.1  短時平均過零率
    4.3.2  短時平均能量
    4.3.3  短時自相關函數
  4.4  信號的頻域分析
    4.4.1  頻譜圖
    4.4.2  傅里葉變換
    4.4.3  傅里葉變換的應用
  4.5  信號的時頻域分析
    4.5.1  短時傅里葉變換

    4.5.2  語譜圖
    4.5.3  寬頻語譜圖和窄帶語譜圖
    4.5.4  Praat中查看語譜圖
  4.6  小波變換
    4.6.1  概述
    4.6.2  連續小波變換
    4.6.3  離散小波變換
    4.6.4  小波變換的應用
第5章  語音識別基礎
  5.1  語音的產生和感知
    5.1.1  語音信號的產生
    5.1.2  語音信號的感知
    5.1.3  語音信號的數字模型
  5.2  漢語的語音特徵
    5.2.1  母音和輔音
    5.2.2  聲母和韻母
    5.2.3  音素
    5.2.4  音調
  5.3  母音與共振峰
  5.4  語音端點檢測
    5.4.1  音量法
    5.4.2  平均能量法
    5.4.3  雙門限法
  5.5  基音估計
  5.6  梅爾倒譜係數
    5.6.1  MFCC特徵提取步驟
    5.6.2  MFCC特徵
    5.6.3  Fbank特徵
第6章  傳統語音識別技術
  6.1  語音識別概述
  6.2  動態時間規整
  6.3  高斯混合模型
    6.3.1  高斯分佈
    6.3.2  高斯混合模型
    6.3.3  GMM?UBM
  6.4  隱馬爾可夫模型
    6.4.1  馬爾可夫鏈
    6.4.2  隱馬爾可夫模型
    6.4.3  Viterbi演算法
第7章  語音識別實戰
  7.1  Whisper的安裝
  7.2  Whisper的使用
第8章  語音合成
  8.1  文本轉語音
    8.1.1  使用SAPI
    8.1.2  使用Pyttsx
    8.1.3  使用SpeechLib
  8.2  語音合成
    8.2.1  World聲碼器
    8.2.2  World聲碼器優點

    8.2.3  World的主要模塊
    8.2.4  語音合成實戰
第9章  音樂分析
  9.1  常用音樂術語
  9.2  音樂分析常用指標
    9.2.1  頻帶能量比
    9.2.2  頻譜特徵
    9.2.3  恆Q變換
  9.3  聲音的包絡
  9.4  節拍檢測
  9.5  音高識別
  9.6  調性分析
第10章  MIDI文件編程
  10.1  MIDI文件格式剖析
    10.1.1  HC和TC
    10.1.2  時間差
    10.1.3  事件
  10.2  用Mido操作MIDI
  10.3  用Music21編曲
    10.3.1  Music21簡介
    10.3.2  Music21的安裝及配置
    10.3.3  Music21的層級結構
第11章  深度學習基礎
  11.1  神經網路基礎
    11.1.1  神經元
    11.1.2  激活函數
    11.1.3  前饋神經網路
    11.1.4  梯度下降法
  11.2  PyTorch基礎
    11.2.1  PyTorch簡介
    11.2.2  PyTorch的主要模塊
    11.2.3  PyTorch的安裝
    11.2.4  張量
    11.2.5  計算圖
    11.2.6  自動求導機制
    11.2.7  損失函數
    11.2.8  優化器
  11.3  案例:聲音的分類
    11.3.1  數據集介紹
    11.3.2  預處理
    11.3.3  數據載入類
    11.3.4  構建網路
    11.3.5  訓練模型
    11.3.6  預測與驗證
第12章  常用神經網路
  12.1  卷積神經網路
    12.1.1  卷積運算
    12.1.2  池化
    12.1.3  卷積神經網路的結構
  12.2  循環神經網路

    12.2.1  RNN
    12.2.2  LSTM
    12.2.3  GRU
  12.3  案例:音樂風格分類
    12.3.1  數據集介紹
    12.3.2  特徵提取
    12.3.3  模型及訓練
第13章  深度學習與語音識別
  13.1  Word2Vec
    13.1.1  詞向量
    13.1.2  Word2Vec
    13.1.3  Hierarchical Softmax
    13.1.4  負採樣
  13.2  ELMo
  13.3  Transformer
    13.3.1  Transformer的構成
    13.3.2  位置編碼
    13.3.3  注意力機制
    13.3.4  多頭注意力
    13.3.5  殘差連接和層歸一化
    13.3.6  Transformer整體架構

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032