幫助中心 | 我的帳號 | 關於我們

精通Spark數據科學

  • 作者:(美)安德魯·摩根//(英)安托萬·阿門德//大衛·喬治//馬修·哈利特|責編:胡俊英|譯者:柯晟劼//劉少俊
  • 出版社:人民郵電
  • ISBN:9787115541567
  • 出版日期:2020/09/01
  • 裝幀:平裝
  • 頁數:430
人民幣:RMB 109 元      售價:
放入購物車
加入收藏夾

內容大鋼
    Apache Spark是專為大規模數據處理而設計的快速通用的計算引擎。這是一本專門介紹Spark的圖書,旨在教會讀者利用Spark構建實用的數據科學解決方案。
    本書內容包括14章,由淺入深地介紹了數據科學生態系統、數據獲取、輸入格式與模式、探索性數據分析、利用Spark進行地理分析、採集基於鏈接的外部數據、構建社區、構建推薦系統、新聞詞典和實時標記系統、故事除重和變遷、情感分析中的異常檢測、趨勢演算、數據保護和可擴展演算法。
    本書適合數據科學家以及對數據科學、機器學習感興趣的讀者閱讀,需要讀者具備數據科學相關的基礎知識,並通過閱讀本書進一步提升Spark運用能力,從而創建出高效且實用的數據科學解決方案。

作者介紹
(美)安德魯·摩根//(英)安托萬·阿門德//大衛·喬治//馬修·哈利特|責編:胡俊英|譯者:柯晟劼//劉少俊

目錄
第1章  數據科學生態系統
  1.1  大數據生態系統簡介 
    1.1.1  數據管理 
    1.1.2  數據管理職責 
    1.1.3  合適的工具 
  1.2  數據架構 
    1.2.1  數據採集 
    1.2.2  數據湖 
    1.2.3  數據科學平台 
    1.2.4  數據訪問 
  1.3  數據處理技術 
  1.4  配套工具 
    1.4.1  Apache HDFS 
    1.4.2  亞馬遜S3 
    1.4.3  Apache Kafka 
    1.4.4  Apache Parquet 
    1.4.5  Apache Avro 
    1.4.6  Apache NiFi 
    1.4.7  Apache YARN 
    1.4.8  Apache Lucene 
    1.4.9  Kibana 
    1.4.10  Elasticsearch 
    1.4.11  Accumulo 
  1.5  小結 
第2章  數據獲取 
  2.1  數據管道 
    2.1.1  通用採集框架 
    2.1.2  GDELT數據集簡介 
  2.2  內容登記 
    2.2.1  選擇和更多選擇 
    2.2.2  隨流而行 
    2.2.3  元數據模型 
    2.2.4  Kibana儀錶盤 
  2.3  質量保證 
    2.3.1  案例1——基本質量檢查,無爭用用戶 
    2.3.2  案例2——進階質量檢查,無爭用用戶 
    2.3.3  案例3——基本質量檢查,50%使用率爭用用戶 
  2.4  小結 
第3章  輸入格式與模式 
  3.1  結構化的生活是美好的生活 
  3.2  GDELT維度建模 
  3.3  載入數據 
    3.3.1  模式敏捷性 
    3.3.2  GKG ELT 
  3.4  Avro 
    3.4.1  Spark-Avro方法 
    3.4.2  教學方法 
    3.4.3  何時執行Avro轉換 
  3.5  Apache Parquet 
  3.6  小結 

第4章  探索性數據分析 
  4.1  問題、原則與規劃 
    4.1.1  理解EDA問題 
    4.1.2  設計原則 
    4.1.3  探索的總計劃 
  4.2  準備工作 
    4.2.1  基於掩碼的數據剖析簡介 
    4.2.2  字元類掩碼簡介 
    4.2.3  構建基於掩碼的剖析器 
  4.3  探索GDELT 
  4.4  小結 
第5章  利用Spark進行地理分析 
  5.1  GDELT和石油 
    5.1.1  GDELT事件 
    5.1.2  GDELT GKG 
  5.2  制訂行動計劃 
  5.3  GeoMesa 
    5.3.1  安裝 
    5.3.2  GDELT採集 
    5.3.3  GeoMesa採集 
    5.3.4  GeoHash 
    5.3.5  GeoServer 
  5.4  計量油價 
    5.4.1  使用GeoMesa查詢API 
    5.4.2  數據準備 
    5.4.3  機器學習 
    5.4.4  樸素貝葉斯 
    5.4.5  結果 
    5.4.6  分析 
  5.5  小結 
第6章  採集基於鏈接的外部數據 
  6.1  構建一個大規模的新聞掃描器 
    6.1.1  訪問Web內容 
    6.1.2  與Spark集成 
    6.1.3  創建可擴展的生產準備庫 
  6.2  命名實體識別 
    6.2.1  Scala庫 
    6.2.2  NLP攻略 
    6.2.3  構建可擴展代碼 
  6.3  GIS查詢 
    6.3.1  GeoNames數據集 
    6.3.2  構建高效的連接 
    6.3.3  內容除重 
  6.4  名字除重 
    6.4.1  用Scalaz進行函數式編程 
    6.4.2  簡單清洗 
    6.4.3  DoubleMetaphone演算法 
  6.5  新聞索引儀錶板 
  6.6  小結 
第7章  構建社區 

  7.1  構建一個人物圖譜 
    7.1.1  聯繫鏈 
    7.1.2  從Elasticsearch中提取數據 
  7.2  使用Accumulo資料庫 
    7.2.1  設置Accumulo 
    7.2.2  單元級安全 
    7.2.3  迭代器 
    7.2.4  從Elasticsearch到Accumulo 
    7.2.5  從Accumulo讀取 
    7.2.6  AccumuloGraphxInputFormat和EdgeWritable 
    7.2.7  構建圖 
  7.3  社區發現演算法 
    7.3.1  Louvain演算法 
    7.3.2  加權社區聚類 
  7.4  GDELT數據集 
    7.4.1  Bowie 效應 
    7.4.2  較小的社區 
    7.4.3  使用Accumulo單元級的安全性 
  7.5  小結 
第8章  構建推薦系統 
  8.1  不同的方法 
    8.1.1  協同過濾 
    8.1.2  基於內容的過濾 
    8.1.3  自定義的方法 
  8.2  信息不完整的數據 
    8.2.1  處理位元組 
    8.2.2  創建可擴展的代碼 
    8.2.3  從時域到頻域 
  8.3  構建歌曲分析器 
  8.4  構建一個推薦系統 
    8.4.1  PageRank演算法 
    8.4.2  構建個性化的播放列表 
  8.5  擴大「蛋糕廠」規模 
    8.5.1  構建播放列表服務 
    8.5.2  應用Spark任務伺服器 
    8.5.3  用戶界面 
  8.6  小結 
第9章  新聞詞典和實時標記系統 
  9.1  土耳其機器人 
    9.1.1  人類智能任務 
    9.1.2  引導分類模型 
    9.1.3  懶惰、急躁、傲慢 
  9.2  設計Spark Streaming應用 
    9.2.1  兩個架構的故事 
    9.2.2  Lambda架構的價值 
    9.2.3  Kappa架構的價值 
  9.3  消費數據流 
    9.3.1  創建GDELT數據流 
    9.3.2  創建Twitter數據流 
  9.4  處理Twitter數據 

    9.4.1  提取URL和主題標籤 
    9.4.2  保存流行的主題標籤 
    9.4.3  擴展縮短的URL 
  9.5  獲取HTML內容 
  9.6  使用Elasticsearch作為緩存層 
  9.7  分類數據 
    9.7.1  訓練樸素貝葉斯模型 
    9.7.2  確保線程安全 
    9.7.3  預測GDELT數據 
  9.8  Twitter土耳其機器人 
  9.9  小結 
第10章  故事除重和變遷 
  10.1  檢測近似重複 
    10.1.1  從散列開始第 一步 
    10.1.2  站在「互聯網巨人」的肩膀上 
    10.1.3  檢測GDELT中的近似重複 
    10.1.4  索引GDELT資料庫 
  10.2  構建故事 
    10.2.1  構建詞頻向量 
    10.2.2  維度災難,數據科學之痛 
    10.2.3  優化KMeans 
  10.3  故事變遷 
    10.3.1  平衡態 
    10.3.2  隨時間追蹤故事 
    10.3.3  構建故事的關聯 
  10.4  小結 
第11章  情感分析中的異常檢測 
  11.1  在Twitter上追蹤美國大選 
    11.1.1  流式獲取數據 
    11.1.2  成批獲取數據 
  11.2  情感分析 
    11.2.1  格式化處理Twitter數據 
    11.2.2  使用斯坦福NLP 
    11.2.3  建立管道 
  11.3  使用Timely作為時間序列資料庫 
    11.3.1  存儲數據 
    11.3.2  使用Grafana可視化情感 
  11.4  Twitter與戈德溫(Godwin)點 
    11.4.1  學習環境 
    11.4.2  對模型進行可視化 
    11.4.3  Word2Graph和戈德溫點 
  11.5  進入檢測諷刺的一小步 
    11.5.1  構建特徵 
    11.5.2  檢測異常 
  11.6  小結 
第12章  趨勢演算 
  12.1  研究趨勢 
  12.2  趨勢演算演算法 
    12.2.1  趨勢窗口 
    12.2.2  簡單趨勢 

    12.2.3  用戶定義聚合函數 
    12.2.4  簡單趨勢計算 
    12.2.5  反轉規則 
    12.2.6  FHLS條狀圖介紹 
    12.2.7  可視化數據 
  12.3  實際應用 
    12.3.1  演算法特性 
    12.3.2  潛在的用例 
  12.4  小結 
第13章  數據保護 
  13.1  數據安全性 
    13.1.1  存在的問題 
    13.1.2  基本操作 
  13.2  認證和授權 
  13.3  訪問 
  13.4  加密 
    13.4.1  數據處於靜態時 
    13.4.2  數據處於傳輸時 
    13.4.3  混淆/匿名 
    13.4.4  遮罩 
    13.4.5  令牌化 
  13.5  數據處置 
  13.6  Kerberos認證 
    13.6.1  用例1:Apache Spark在受保護的HDFS中訪問數據 
    13.6.2  用例2:擴展到自動身份驗證 
    13.6.3  用例3:從Spark連接到安全資料庫 
  13.7  安全生態 
    13.7.1  Apache Sentry 
    13.7.2  RecordService 
  13.8  安全責任 
  13.9  小結 
第14章  可擴展演算法 
  14.1  基本原則 
  14.2  Spark架構 
    14.2.1  Spark的歷史 
    14.2.2  動態組件 
  14.3  挑戰 
    14.3.1  演算法複雜性 
    14.3.2  數值異常 
    14.3.3  洗牌 
    14.3.4  數據模式 
  14.4  規劃你的路線 
  14.5  設計模式和技術 
    14.5.1  Spark API 
    14.5.2  摘要模式 
    14.5.3  擴展並解決模式 
    14.5.4  輕量級洗牌 
    14.5.5  寬表模式 
    14.5.6  廣播變數模式 
    14.5.7  組合器模式 

    14.5.8  集群優化 
    14.5.9  再分配模式 
    14.5.10  加鹽鍵模式 
    14.5.11  二次排序模式 
    14.5.12  過濾過度模式 
    14.5.13  概率演算法 
    14.5.14  選擇性緩存 
    14.5.15  垃圾回收 
    14.5.16  圖遍歷 
  14.6  小結 

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032