幫助中心 | 我的帳號 | 關於我們

Spark高級數據分析(第2版)/圖靈程序設計叢書

  • 作者:(美)桑迪·里扎//于里·萊瑟森//(英)肖恩·歐文//(美)喬希·威爾斯|譯者:龔少成//邱鑫
  • 出版社:人民郵電
  • ISBN:9787115482525
  • 出版日期:2018/06/01
  • 裝幀:平裝
  • 頁數:226
人民幣:RMB 69 元      售價:
放入購物車
加入收藏夾

內容大鋼
    桑迪·里扎、于里·萊瑟森、肖恩·歐文、喬希·威爾斯著的《Spark高級數據分析(第2版)/圖靈程序設計叢書》是使用Spark進行大規模數據分析的實戰寶典,由知名數據科學家撰寫。本書在第1版的基礎上,針對Spark近年來的發展,對樣例代碼和所使用的資料進行了大量更新。新版Spark使用了全新的核心API,MLlib和Spark SQL兩個子項目也發生了較大變化,本書為關注Spark發展趨勢的讀者提供了與時俱進的資料,例如Dataset和DataFrame的使用,以及與DataFrame API高度集成的Spark ML API。
    本書適合從事數據分析的各類專業人員閱讀。

作者介紹
(美)桑迪·里扎//于里·萊瑟森//(英)肖恩·歐文//(美)喬希·威爾斯|譯者:龔少成//邱鑫

目錄
推薦序
譯者序

前言
第1章  大數據分析
  1.1 數據科學面臨的挑戰
  1.2 認識Apache Spark
  1.3 關於本書
  1.4 第2版說明
第2章  用Scala 和Spark進行數據分析
  2.1 數據科學家的Scala
  2.2 Spark編程模型
  2.3 記錄關聯問題
  2.4 小試牛刀:Spark shell和SparkContext
  2.5 把數據從集群上獲取到客戶端
  2.6 把代碼從客戶端發送到集群
  2.7 從RDD到DataFrame
  2.8 用DataFrame API來分析數據
  2.9 DataFrame的統計信息
  2.10 DataFrame的轉置和重塑
  2.11 DataFrame的連接和特徵選擇
  2.12 為生產環境準備模型
  2.13 評估模型
  2.14 小結
第3章  音樂推薦和Audioscrobbler數據集
  3.1 數據集
  3.2 交替最小二乘推薦演算法
  3.3 準備數據
  3.4 構建第一個模型
  3.5 逐個檢查推薦結果
  3.6 評價推薦質量
  3.7 計算AUC
  3.8 選擇超參數
  3.9 產生推薦
  3.10 小結
第4章  用決策樹演算法預測森林植被
  4.1 回歸簡介
  4.2 向量和特徵
  4.3 樣本訓練
  4.4 決策樹和決策森林
  4.5 Covtype數據集
  4.6 準備數據
  4.7 第一棵決策樹
  4.8 決策樹的超參數
  4.9 決策樹調優
  4.10 重談類別型特徵
  4.11 隨機決策森林
  4.12 進行預測
  4.13 小結
第5章  基於K均值聚類的網路流量異常檢測

  5.1 異常檢測
  5.2 K均值聚類
  5.3 網路入侵
  5.4 KDD Cup 1999數據集
  5.5 初步嘗試聚類
  5.6 k的選擇
  5.7 基於SparkR的可視化
  5.8 特徵的規範化
  5.9 類別型變數
  5.10 利用標號的熵信息
  5.11 聚類實戰
  5.12 小結
第6章  基於潛在語義分析演算法分析維基百科
  6.1 文檔-詞項矩陣
  6.2 獲取數據
  6.3 分析和準備數據
  6.4 詞形歸併
  6.5 計算TF-IDF
  6.6 奇異值分解
  6.7 找出重要的概念
  6.8 基於低維近似的查詢和評分
  6.9 詞項-詞項相關度
  6.10 文檔-文檔相關度
  6.11 文檔-詞項相關度
  6.12 多詞項查詢
  6.13 小結
第7章  用GraphX分析伴生網路
  7.1 對MEDLINE文獻引用索引的網路分析
  7.2 獲取數據
  7.3 用Scala XML工具解析XML文檔
  7.4 分析MeSH主要主題及其伴生關係
  7.5 用GraphX來建立一個伴生網路
  7.6 理解網路結構
  7.6.1 連通組件
  7.6.2 度的分佈
  7.7 過濾雜訊邊
  7.7.1 處理EdgeTriplet
  7.7.2 分析去掉雜訊邊的子圖
  7.8 小世界網路
  7.8.1 系和聚類係數
  7.8.2 用Pregel計算平均路徑長度
  7.9 小結
第8章  紐約計程車軌跡的空間和時間數據分析
  8.1 數據的獲取
  8.2 基於Spark的第三方庫分析
  8.3 基於Esri Geometry API和Spray的地理空間數據處理
  8.3.1 認識Esri Geometry API
  8.3.2 GeoJSON簡介
  8.4 紐約市計程車客運數據的預處理
  8.4.1 大規模數據中的非法記錄處理

  8.4.2 地理空間分析
  8.5 基於Spark的會話分析
  8.6 小結
第9章  基於蒙特卡羅模擬的金融風險評估
  9.1 術語
  9.2 VaR計算方法
  9.2.1 方差-協方差法
  9.2.2 歷史模擬法
  9.2.3 蒙特卡羅模擬法
  9.3 我們的模型
  9.4 獲取數據
  9.5 數據預處理
  9.6 確定市場因素的權重
  9.7 採樣
  9.8 運行試驗
  9.9 回報分佈的可視化
  9.10 結果的評估
  9.11 小結
第10章  基因數據分析和BDG項目
  10.1 分離存儲與模型
  10.2 用ADAM CLI導入基因學數據
  10.3 從ENCODE數據預測轉錄因子結合位點
  10.4 查詢1000 Genomes項目中的基因型
  10.5 小結
第11章  基於PySpark和Thunder的神經圖像數據分析
  11.1 PySpark簡介
  11.2 Thunder工具包概況和安裝
  11.3 用Thunder載入數據
  11.4 用Thunder對神經元進行分類
  11.5 小結
作者介紹
封面介紹

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032