幫助中心 | 我的帳號 | 關於我們

CUDA C編程權威指南/高性能計算技術叢書

  • 作者:(美)程潤偉//馬克斯·格羅斯曼//泰·麥克切爾|譯者:顏成鋼//殷建//李亮
  • 出版社:機械工業
  • ISBN:9787111565475
  • 出版日期:2017/06/01
  • 裝幀:平裝
  • 頁數:412
人民幣:RMB 99 元      售價:
放入購物車
加入收藏夾

內容大鋼
    程潤偉、馬克斯·格羅斯曼、泰·麥克切爾著,顏成鋼、殷建、李亮譯的《CUDA C編程權威指南/高性能計算技術叢書》用一種易於理解的方式介紹了CUDA的基本知識,教會你並行思維以及在GPU上執行並行演算法。每章包含一個特定的主題,包括演示開發過程的實例,讓讀者探索GPU編程的「硬」和「軟」兩個方面的知識。
    為了應對工業生產和科學研究的應用需求,計算架構正在向可擴展的並行計算髮生轉變。本書說明了有效利用計算資源以達到最優性能的必要性,提供了應對這些挑戰的先進技術,同時為非並行計算領域的研究人員提供了便利。CUDA編程模型和工具使開發人員可以在一個可擴展的並行計算平台即GPU上編寫高性能的應用程序。但是,如果沒有豐富的編程經驗是很難掌握CUDA的。本書作者是CUDA權威人士,他們通過基本的GPU編程技巧以及專業的CUDA C編程實戰來引導讀者學習。

作者介紹
(美)程潤偉//馬克斯·格羅斯曼//泰·麥克切爾|譯者:顏成鋼//殷建//李亮

目錄
譯者序
推薦序
自序
作者簡介
技術審校者簡介
前言
致謝
第1章  基於CUDA的異構並行計算
  1.1  並行計算
    1.1.1  串列編程和並行編程
    1.1.2  並行性
    1.1.3  電腦架構
  1.2  異構計算
    1.2.1  異構架構
    1.2.2  異構計算範例
    1.2.3  CUDA:一種異構計算平台
  1.3  用GPU輸出Hello World
  1.4  使用CUDA C編程難嗎
  1.5  總結
  1.6  習題
第2章  CUDA編程模型
  2.1  CUDA編程模型概述
    2.1.1  CUDA編程結構
    2.1.2  內存管理
    2.1.3  線程管理
    2.1.4  啟動一個CUDA核函數
    2.1.5  編寫核函數
    2.1.6  驗證核函數
    2.1.7  處理錯誤
    2.1.8  編譯和執行
  2.2  給核函數計時
    2.2.1  用CPU計時器計時
    2.2.2  用nvprof工具計時
  2.3  組織並行線程
    2.3.1  使用塊和線程建立矩陣索引
    2.3.2  使用二維網格和二維塊對矩陣求和
    2.3.3  使用一維網格和一維塊對矩陣求和
    2.3.4  使用二維網格和一維塊對矩陣求和
  2.4  設備管理
    2.4.1  使用運行時API查詢GPU信息
    2.4.2  確定最優GPU
    2.4.3  使用nvidia-smi查詢GPU信息
    2.4.4  在運行時設置設備
  2.5  總結
  2.6  習題
第3章  CUDA執行模型
  3.1  CUDA執行模型概述
    3.1.1  GPU架構概述
    3.1.2  Fermi架構
    3.1.3  Kepler架構

    3.1.4  配置文件驅動優化
  3.2  理解線程束執行的本質
    3.2.1  線程束和線程塊
    3.2.2  線程束分化
    3.2.3  資源分配
    3.2.4  延遲隱藏
    3.2.5  佔用率
    3.2.6  同步
    3.2.7  可擴展性
  3.3  並行性的表現
    3.3.1  用nvprof檢測活躍的線程束
    3.3.2  用nvprof檢測內存操作
    3.3.3  增大並行性
  3.4  避免分支分化
    3.4.1  並行歸約問題
    3.4.2  並行歸約中的分化
    3.4.3  改善並行歸約的分化
    3.4.4  交錯配對的歸約
  3.5  展開循環
    3.5.1  展開的歸約
    3.5.2  展開線程的歸約
    3.5.3  完全展開的歸約
    3.5.4  模板函數的歸約
  3.6  動態並行
    3.6.1  嵌套執行
    3.6.2  在GPU上嵌套Hello World
    3.6.3  嵌套歸約
  3.7  總結
  3.8  習題
第4章  全局內存
  4.1  CUDA內存模型概述
    4.1.1  內存層次結構的優點
    4.1.2  CUDA內存模型
  4.2  內存管理
    4.2.1  內存分配和釋放
    4.2.2  內存傳輸
    4.2.3  固定內存
    4.2.4  零拷貝內存
    4.2.5  統一虛擬定址
    4.2.6  統一內存定址
  4.3  內存訪問模式
    4.3.1  對齊與合併訪問
    4.3.2  全局內存讀取
    4.3.3  全局內存寫入
    4.3.4  結構體數組與數組結構體
    4.3.5  性能調整
  4.4  核函數可達到的帶寬
    4.4.1  內存帶寬
    4.4.2  矩陣轉置問題
  4.5  使用統一內存的矩陣加法

  4.6  總結
  4.7  習題
第5章  共享內存和常量內存
  5.1  CUDA共享內存概述
……
第6章  流和併發
第7章  調整指令級原語
第8章  GPU加速庫和OpenACC
第9章  多GPU編程
第10章  程序實現的注意事項
附錄  推薦閱讀

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032