幫助中心 | 我的帳號 | 關於我們

多模態深度學習技術基礎

  • 作者:馮方向//王小捷|責編:張玥//常建麗
  • 出版社:清華大學
  • ISBN:9787302637479
  • 出版日期:2023/09/01
  • 裝幀:平裝
  • 頁數:241
人民幣:RMB 99 元      售價:
放入購物車
加入收藏夾

內容大鋼
    深度學習技術的引入使得多模態信息處理領域取得了巨大的突破。本書在介紹多模態信息處理的基礎概念和典型任務的基礎上,重點介紹最通用、最基礎的基於深度學習的多模態信息處理技術。本書內容包括初識多模態信息處理、單模態深度學習表示技術、多模態深度學習基礎技術、多模態預訓練技術4部分:初識多模態信息處理部分介紹多模態信息處理的基礎概念和典型任務;單模態深度學習表示技術部分介紹多模態深度學習模型中常用的文本表示和圖像表示技術;多模態深度學習基礎技術部分介紹多模態表示、對齊、融合和轉換這4種技術;多模態預訓練技術部分介紹多模態預訓練技術。此外,為了讓讀者更好地理解理論的細節並實踐這些多模態深度學習技術,本書提供了4個可運行的完整的實戰案例,分別對應多模態表示、對齊、融合和轉換這4種技術。
    本書既可作為多模態信息處理、多模態深度學習等相關課程的教學參考書,適用於高等院校智能科學與技術和人工智慧等專業的本科生、研究生,同時可供為對多模態深度學習技術感興趣的工程師和研究人員參考。

作者介紹
馮方向//王小捷|責編:張玥//常建麗

目錄
第1章  緒論
  1.1  多模態信息處理的概念
  1.2  多模態信息處理的難點
  1.3  使用深度學習技術的動機
  1.4  多模態信息處理的基礎技術
    1.4.1  表示技術
    1.4.2  對齊技術
    1.4.3  融合技術
    1.4.4  轉換技術
  1.5  多模態深度學習技術的發展歷史
  1.6  小結
  1.7  習題
第2章  多模態任務
  2.1  圖文跨模態檢索
    2.1.1  數據集
    2.1.2  評測指標
  2.2  圖像描述
    2.2.1  數據集
    2.2.2  評測指標
  2.3  視覺問答
    2.3.1  數據集
    2.3.2  評測指標
  2.4  文本生成圖像
    2.4.1  數據集
    2.4.2  評測指標
  2.5  指稱表達
    2.5.1  數據集
    2.5.2  評測指標
  2.6  小結
  2.7  習題
第3章  文本表示
  3.1  基於詞嵌入的靜態詞表示
    3.1.1  Word2vec
    3.1.2  GloVe
  3.2  基於循環神經網路的動態詞表示
    3.2.1  循環神經網路基礎
    3.2.2  現代循環神經網路
    3.2.3  動態詞表示和整體表示
  3.3  基於注意力的預訓練語言模型表示
    3.3.1  自注意力
    3.3.2  transformer編碼器
    3.3.3  BERT
    3.3.4  BERT詞表示和整體表示
  3.4  小結
  3.5  習題
第4章  圖像表示
  4.1  基於卷積神經網路的整體表示和網格表示
    4.1.1  卷積神經網路基礎
    4.1.2  現代卷積神經網路
    4.1.3  整體表示和網格表示

  4.2  基於目標檢測模型的區域表示
    4.2.1  基於深度學習的目標檢測基礎
    4.2.2  區域表示
  4.3  基於視覺transformer的整體表示和塊表示
    4.3.1  使用自注意力代替卷積
    4.3.2  視覺transformer
    4.3.3  整體表示和塊表示
  4.4  基於自編碼器的壓縮表示
    4.4.1  量化自編碼器:VQ-VAE
    4.4.2  量化生成對抗網路:VQGAN
    4.4.3  變分生成對抗網路:KLGAN
    4.4.4  壓縮表示
  4.5  小結
  4.6  習題
第5章  多模態表示
  5.1  共享表示
    5.1.1  多模態深度自編碼器
    5.1.2  多模態深度生成模型
  5.2  對應表示
    5.2.1  基於重構損失的方法
    5.2.2  基於排序損失的方法
    5.2.3  基於對抗損失的方法
  5.3  實戰案例:基於對應表示的跨模態檢索
    5.3.1  跨模態檢索技術簡介
    5.3.2  模型訓練流程
    5.3.3  讀取數據
    5.3.4  定義模型
    5.3.5  定義損失函數
    5.3.6  選擇優化方法
    5.3.7  評估指標
    5.3.8  訓練模型
  5.4  小結
  5.5  習題
第6章  多模態對齊
  6.1  基於注意力的方法
    6.1.1  交叉注意力
    6.1.2  基於交叉注意力的圖文對齊和相關性計算
  6.2  基於圖神經網路的方法
    6.2.1  圖神經網路基礎
    6.2.2  單模態表示提取
    6.2.3  單模態圖表示學習
    6.2.4  多模態圖對齊
  6.3  實戰案例:基於交叉注意力的跨模態檢索
    6.3.1  讀取數據
    6.3.2  定義模型
    6.3.3  定義損失函數
    6.3.4  選擇優化方法
    6.3.5  評估指標
    6.3.6  訓練模型
  6.4  小結

  6.5  習題
第7章  多模態融合
  7.1  基於雙線性融合的方法
    7.1.1  多模態低秩雙線性池化
    7.1.2  多模態因子雙線性池化
    7.1.3  多模態Tucker融合
  7.2  基於注意力的方法
    7.2.1  基於交叉注意力的基礎方法
    7.2.2  基於多步交叉注意力的方法
    7.2.3  基於交叉transformer編碼器的方法
  7.3  實戰案例:基於MFB的視覺問答
    7.3.1  視覺問答技術簡介
    7.3.2  讀取數據
    7.3.3  定義模型
    7.3.4  定義損失函數
    7.3.5  選擇優化方法
    7.3.6  選擇評估指標
    7.3.7  訓練模型
  7.4  小結
  7.5  習題
第8章  多模態轉換
  8.1  基於編解碼框架的方法
    8.1.1  基於循環神經網路的編解碼模型
    8.1.2  基於注意力的編解碼模型
    8.1.3  基於transformer的編解碼模型
  8.2  基於生成對抗網路的方法
    8.2.1  基於條件生成對抗網路的基本方法
    8.2.2  基於多階段生成網路的方法
    8.2.3  基於注意力生成網路的方法
  8.3  實戰案例:基於注意力的圖像描述
    8.3.1  圖像描述技術簡介
    8.3.2  讀取數據
    8.3.3  定義模型
    8.3.4  定義損失函數
    8.3.5  選擇優化方法
    8.3.6  選擇評估指標
    8.3.7  訓練模型
  8.4  小結
  8.5  習題
第9章  多模態預訓練
  9.1  總體框架
  9.2  預訓練數據集
  9.3  模型結構
    9.3.1  基於編碼器的模型
    9.3.2  基於編解碼框架的模型
  9.4  預訓練任務
    9.4.1  掩碼語言模型
    9.4.2  掩碼視覺模型
    9.4.3  圖像文本匹配
    9.4.4  跨模態對比學習

  9.5  下游任務
    9.5.1  視覺常識推理
    9.5.2  視覺語言推理
    9.5.3  視覺蘊含
  9.6  典型模型
    9.6.1  基於融合編碼器的雙流模型:LXMERT
    9.6.2  基於融合編碼器的單流模型:ViLT
    9.6.3  基於雙編碼器的模型:CLIP
    9.6.4  基於編解碼框架的模型:OFA
  9.7  小結
  9.8  習題
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032