幫助中心 | 我的帳號 | 關於我們

多模態大模型技術及應用/大模型與通用人工智慧技術叢書

  • 作者:編者:王卓|責編:耍利娜
  • 出版社:化學工業
  • ISBN:9787122497239
  • 出版日期:2026/05/01
  • 裝幀:平裝
  • 頁數:300
人民幣:RMB 99 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書通過豐富的實戰案例,全面介紹多模態大模型的核心原理、數據處理方法與模型優化策略。全書共9章,結構層層遞進。第1章和第2章介紹了多模態大模型的基礎理論與數據處理技術,包括多模態數據的特徵、預處理方法與增強策略。第3章和第4章詳細闡述了多模態表示學習與嵌入方法,涵蓋數據融合、模態對齊、聯合學習等關鍵技術。第5章全面展示了多模態模型的訓練與微調策略,如注意力機制、對比學習與混合精度訓練等優化方法。第6章深入探討了OpenAI的多模態模型CLIP,幫助讀者掌握訓練、增強和微調CLIP的知識。第7章介紹了基於CPM中英雙語多模態大模型的文生圖系統實現過程。第8章和第9章分別介紹了DeepSeek多模態大模型和基於Latent Diffusion Transformer的文生視頻系統的構建過程。
    本書適合人工智慧工程師、深度學習研究者、AI產品開發人員、高校師生以及希望轉型AI領域的技術人員閱讀。無論是希望夯實多模態模型基礎,還是尋找前沿實戰案例,本書都將為您提供全面的參考與指導。

作者介紹
編者:王卓|責編:耍利娜

目錄
第1章  多模態大模型開發基礎
  1.1  大模型介紹
    1.1.1  什麼是大模型
    1.1.2  大模型技術的發展
    1.1.3  大模型的作用
  1.2  多模態技術簡介
    1.2.1  什麼是多模態
    1.2.2  多模態技術的發展
    1.2.3  多模態技術的應用場景
  1.3  多模態數據類型
    1.3.1  常見的多模態類型
    1.3.2  圖像數據
    1.3.3  文本數據
    1.3.4  音頻數據
    1.3.5  視頻數據
  1.4  多模態技術的基本原理
    1.4.1  數據融合與對齊
    1.4.2  多模態表示學習
    1.4.3  多模態推理
第2章  多模態數據處理
  2.1  文本預處理
    2.1.1  數據清洗和處理
    2.1.2  數據轉換與整合
    2.1.3  數據標準化與歸一化
  2.2  圖像預處理
    2.2.1  歸一化
    2.2.2  去噪
    2.2.3  圖像裁剪和縮放
  2.3  音頻預處理
    2.3.1  採樣率調整
    2.3.2  音頻分幀
    2.3.3  加密
    2.3.4  傅里葉變換
    2.3.5  聲譜圖
  2.4  視頻預處理
    2.4.1  視頻預處理技術
    2.4.2  對指定視頻實現預處理
  2.5  數據增強
    2.5.1  文本數據增強
    2.5.2  圖像數據增強
    2.5.3  音頻數據增強
第3章  多模態表示學習
  3.1  多模態表示學習方法介紹
  3.2  表示融合
    3.2.1  表示融合方法介紹
    3.2.2  實戰演練:實現一個多模態情感識別模型
  3.3  聯合學習
    3.3.1  實現聯合學習的流程
    3.3.2  實戰演練:實現多模態模型的聯合學習
  3.4  表示對齊

    3.4.1  表示對齊方法
    3.4.2  實戰演練:實現多模態模型之間的表示對齊
  3.5  模態間的關係建模
    3.5.1  實現模態間關係建模的方法
    3.5.2  實戰演練:在多模態場景中實現模態間關係建模
第4章  多模態嵌入表示
  4.1  多模態嵌入介紹
  4.2  圖像嵌入
    4.2.1  圖像嵌入基礎
    4.2.2  圖像特徵提取
    4.2.3  模態對齊
    4.2.4  CLIP
    4.2.5  DALL-E
  4.3  文本嵌入
    4.3.1  文本嵌入方法
    4.3.2  實戰演練:使用BERT實現文本嵌入
    4.3.3  實戰演練:基於CLIP的文本嵌入
  4.4  音頻嵌入
    4.4.1  音頻特徵提取
    4.4.2  常用的音頻嵌入模型
第5章  訓練多模態模型
  5.1  多模態模型的訓練過程
  5.2  常用訓練策略實戰演練
    5.2.1  預訓練與微調
    5.2.2  多任務學習
    5.2.3  自注意力機制
    5.2.4  對比學習
    5.2.5  數據增強
    5.2.6  遷移學習
    5.2.7  正則化技術
    5.2.8  動態學習率調整
    5.2.9  混合精度訓練
第6章  OpenAI的多模態模型:CLIP
  6.1  CLIP介紹
    6.1.1  CLIP的架構
    6.1.2  CLIP的優點和缺點
  6.2  CLIP的增強訓練的準備工作
    6.2.1  功能模塊介紹
    6.2.2  定義數據集
  6.3  模型的構建、訓練與評估
    6.3.1  創建模型
    6.3.2  分詞器
    6.3.3  損失函數
    6.3.4  訓練模型
    6.3.5  評估模型
    6.3.6  文本重寫
第7章  基於CPM中英雙語多模態大模型的文生圖系統
  7.1  項目介紹
  7.2  項目架構
  7.3  圖像處理和增強

  7.4  文本處理
  7.5  實現模型
    7.5.1  模型組件
    7.5.2  圖像和張量處理工具
    7.5.3  定義和配置 BEIT3 模型
    7.5.4  CPMBeeTorch 模型
    7.5.5  基於 Stable Diffusion 的圖像生成模型
    7.5.6  多模態模型
  7.6  文本生成
    7.6.1  輔助函數
    7.6.2  生成文本響應
  7.7  圖文交互
  7.8  繪畫模型
  7.9  模型微調
    7.9.1  工具類
    7.9.2  處理和構建數據集
    7.9.3  訓練初始化
    7.9.4  模型配置和訓練
    7.9.5  保存配置文件
  7.10  調試運行
    7.10.1  文生圖程序
    7.10.2  聊天程序
第8章  DeepSeek多模態大模型
  8.1  DeepSeek多模態大模型簡介
  8.2  整體架構設計
    8.2.1  模型定位與技術目標
    8.2.2  核心模塊組成
    8.2.3  設計哲學與核心考量
  8.3  Janus項目源碼分析
    8.3.1  對話管理
    8.3.2  數據載入
    8.3.3  構建多模態模型
    8.3.4  JanusFlow模型架構
    8.3.5  模型推理
    8.3.6  準備DeepSeek多模態大模型API
    8.3.7  在線測試DeepSeek多模態大模型
第9章  基於Latent Diffusion Transformer的文生視頻系統
  9.1  項目介紹
    9.1.1  背景介紹
    9.1.2  主要貢獻
  9.2  項目架構
  9.3  系統配置
    9.3.1  FaceForensics數據集配置
    9.3.2  配置Sky Timelapse數據集
    9.3.3  配置其他數據集
  9.4  數據集處理
    9.4.1  處理FaceForensics數據集中的視頻數據
    9.4.2  載入並處理Skylmages數據集
    9.4.3  載入並處理Taichi數據集
    9.4.4  載入並處理UCF101數據集

    9.4.5  視頻數據的預處理和增強
  9.5  擴散模型
    9.5.1  擴散模型的輔助工具
    9.5.2  高層擴散模型的核心邏輯
  9.6  實現模型
    9.6.1  文本嵌入模型
    9.6.2  多模態視頻處理模型
    9.6.3  圖像生成模型
    9.6.4  二維Transformer模型
  9.7  訓練模型
    9.7.1  基本訓練
    9.7.2  視頻圖像聯合訓練
    9.7.3  PyTorch Lightning訓練腳本
  9.8  模型性能評估
    9.8.1  評估工具
    9.8.2  FVD評估
    9.8.3  評估生成視頻的質量
    9.8.4  性能評估
  9.9  採樣
    9.9.1  基於Latte模型的採樣
    9.9.2  基於分散式數據並行生成視頻
    9.9.3  文本生成視頻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032