幫助中心 | 我的帳號 | 關於我們

大數據分析與計算

  • 作者:編者:湯羽//林迪//范愛華//吳薇薇
  • 出版社:清華大學
  • ISBN:9787302485865
  • 出版日期:2018/03/01
  • 裝幀:平裝
  • 頁數:485
人民幣:RMB 89 元      售價:
放入購物車
加入收藏夾

內容大鋼
    大數據應用已成為行業熱點和產業發展新增長點,數據科學與計算技術也是最新的前沿領域,其中,大數據計算分析提供了核心的技術支撐。湯羽、林迪、范愛華、吳薇薇編著的《大數據分析與計算》從大數據計算系統的三個層次對數據模型、處理演算法、計算模型與架構、開發技術標準等內容進行了綜合性的介紹,重點闡述了各類數據分析演算法和MapReduce,圖並行計算,互動式處理,流計算,內存計算等計算架構。本書適合作為數據科學與大數據計算技術、電腦科學與技術、互聯網應用系統、物聯網工程等專業相關課程的教材。

作者介紹
編者:湯羽//林迪//范愛華//吳薇薇

目錄
第1章  緒論
  1.1  數據與數據科學
  1.2  大數據概念
  1.3  大數據技術特徵
  參考文獻
  習題
第2章  大數據計算體系
  2.1  大數據計算架構
  2.2  數據存儲系統
    2.2.1  數據清洗與建模
    2.2.2  分散式文件系統
    2.2.3  NoSQL資料庫
    2.2.4  統一數據訪問介面
  2.3  數據處理平台
    2.3.1  數據分析演算法
    2.3.2  計算處理模型
    2.3.3  計算平台與引擎
  2.4  數據應用系統
    2.4.1  大數據應用領域
    2.4.2  大數據解決方案
  參考文獻
  習題
第3章  大數據標準與模式
  3.1  大數據標準體系
  3.2  大數據計算模式
  參考文獻
  習題
第4章  數據採集方法
  4.1  系統日誌採集
    4.1.1  日誌採集的目的
    4.1.2  日誌採集過程
  4.2  網路數據採集
    4.2.1  網路爬蟲工作原理
    4.2.2  網頁搜索策略
    4.2.3  網頁分析演算法
    4.2.4  網路爬蟲框架
  4.3  數據採集介面
  參考文獻
  習題
第5章  數據清洗與規約方法
  5.1  數據預處理研究現狀
    5.1.1  數據清洗的研究現狀
    5.1.2  數據規約的研究現狀
  5.2  數據質量問題分類
    5.2.1  單數據源的問題
    5.2.2  多數據源的問題
  5.3  數據清洗技術
    5.3.1  重複記錄清洗
    5.3.2  消除雜訊數據
    5.3.3  缺失值清洗

  5.4  數據歸約
    5.4.1  維歸約
    5.4.2  屬性選擇
    5.4.3  離散化方法
  5.5  數據清洗工具
  參考文獻
  習題
第6章  數據分析演算法
  6.1  C4.5  演算法
    6.1.1  演算法描述
    6.1.2  屬性選擇度量
    6.1.3  其他特徵
  6.2  k?均值演算法
  6.3  支持向量機
  6.4  Apriori演算法
  6.5  EM演算法
    6.5.1  案例: 估計k個高斯分佈的均值
    6.5.2  EM演算法步驟
  6.6  PageRank演算法
    6.6.1  PageRank的核心思想
    6.6.2  PageRank的計算過程
  6.7  AdaBoost演算法
    6.7.1  Boosting演算法的發展歷史
    6.7.2  AdaBoost演算法及其分析
  6.8  k?鄰近演算法
  6.9  樸素貝葉斯
    6.9.1  樸素貝葉斯分類器
    6.9.2  貝葉斯網路
  6.10  分類回歸樹演算法
    6.10.1  建立回歸樹
    6.10.2  剪枝過程
  參考文獻
  習題
第7章  文本讀寫技術
  7.1  讀取文本文件
    7.1.1  讀取txt文件
    7.1.2  讀取csv文件
  7.2  寫入文本文件
  7.3  處理二進位數據
  7.4  資料庫的使用
    7.4.1  資料庫的連接
    7.4.2  執行SQL語句
    7.4.3  選擇和列印
    7.4.4  動態插入
    7.4.5  update操作
  參考文獻
  習題
第8章  數據處理技術
  8.1  合併數據集
    8.1.1  索引上的合併

    8.1.2  軸向連接
    8.1.3  合併重疊數據
  8.2  數據轉換
    8.2.1  移除重複數據
    8.2.2  利用函數進行數據轉換
    8.2.3  替換值
    8.2.4  重命名軸索引
    8.2.5  離散化數據
    8.2.6  檢測異常值
    8.2.7  排列和隨機採樣
    8.2.8  啞變數
  8.3  字元串操作
    8.3.1  內置字元串方法
    8.3.2  正則表達式
    8.3.3  Pandas中矢量化的字元串函數
  參考文獻
  習題
第9章  數據分析技術
  9.1  NumPy工具包
    9.1.1  創建數組
    9.1.2  列印數組
    9.1.3  基本運算
    9.1.4  索引、切片和迭代
    9.1.5  形狀操作
    9.1.6  複製和視圖
    9.1.7  NumPy實用技巧
  9.2  Pandas工具包
    9.2.1  Series
    9.2.2  DataFrame
  9.3  Scikit?Learn工具包
    9.3.1  邏輯回歸
    9.3.2  樸素貝葉斯
    9.3.3  k?最近鄰
    9.3.4  決策樹
    9.3.5  支持向量機
    9.3.6  優化演算法參數
  參考文獻
  習題
第10章  數據可視化技術
  10.1  Matplotlib繪圖
    10.1.1  Matplotlib API入門
    10.1.2  Figure和Subplot的畫圖方法
    10.1.3  調整Subplot周圍的間距
    10.1.4  顏色、標記和線型的設置
    10.1.5  刻度、標籤和圖例
  10.2  Mayavi2繪圖
    10.2.1  使用mlab快速繪圖
    10.2.2  Mayavi嵌入到界面中
  10.3  其他圖形化工具
  參考文獻

  習題
第11章  Hadoop生態系統
  11.1  Hadoop系統架構
  11.2  HDFS分散式文件系統
    11.2.1  HDFS體系結構
    11.2.2  HDFS存儲結構
    11.2.3  數據容錯與恢復
    11.2.4  Hadoop/HDFS安裝
  11.3  分散式存儲架構
    11.3.1  HBase系統架構
    11.3.2  數據模型與存儲模式
    11.3.3  HBase數據讀寫
    11.3.4  數據倉庫工具Hive
    11.3.5  HBase安裝與配置
  11.4  HBase索引與檢索
    11.4.1  二次索引表機制
    11.4.2  二次索引技術方案
  11.5  資源管理與作業調度
    11.5.1  分散式協同管理組件ZooKeeper
    11.5.2  作業調度與工作流引擎Oozie
    11.5.3  集群資源管理框架YARN
  參考文獻
  習題
第12章  MapReduce計算模型
  12.1  分散式並行計算系統
  12.2  MapReduce計算架構
  12.3  鍵值對與輸入格式
  12.4  映射與化簡
  12.5  應用編程介面
  參考文獻
  習題
第13章  圖並行計算框架
  13.1  圖基本概念
  13.2  BSP模型
  13.3  Pregel圖計算引擎
  13.4  Hama開源框架
  13.5  應用編程介面
  參考文獻
  習題
第14章  互動式計算模式
  14.1  數據模型
  14.2  存儲結構
  14.3  並行查詢
  14.4  開源實現
  參考文獻
  習題
第15章  流計算系統
  15.1  流計算模型
  15.2  Storm計算架構
  15.3  工作機制實現

  15.4  Storm編程介面
  參考文獻
  習題
第16章  內存計算模式
  16.1  分散式緩存體系
  16.2  內存資料庫
  16.3  內存雲MemCloud
  16.4  Spark內存計算
  參考文獻
  習題
第17章  基於醫療數據的臨床決策分析應用
  17.1  國內外研究現狀及發展動態分析
  17.2  技術路線和方案
  參考文獻
  習題
第18章  基於醫保數據的預測分析應用
  18.1  數據準備階段
  18.2  模型變數選擇和轉換
    18.2.1  模型變數的選擇
    18.2.2  模型變數的轉換
    18.2.3  篩選模型變數
  18.3  建模過程
  18.4  模型效果
  參考文獻
  習題
第19章  互聯網電商數據的分析應用
  19.1  電商流程管理分析
    19.1.1  行業背景與業務問題
    19.1.2  分析方法與過程
  19.2  用戶消費行為分析
    19.2.1  業務問題
    19.2.2  分析方法與過程
  19.3  送貨速度相關性分析
    19.3.1  業務問題
    19.3.2  分析方法與過程
  19.4  總結
  參考文獻
  習題
第20章  金融和經濟數據的分析應用
  20.1  企業對創新經濟活動推動的影響分析
    20.1.1  案例背景
    20.1.2  分析方法與過程
  20.2  信貸風險模型評估
  20.3  中小能源型企業的信用評價分析
    20.3.1  案例背景
    20.3.2  分析方法與過程
    20.3.3  分析結果
  參考文獻
  習題

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032