幫助中心 | 我的帳號 | 關於我們

實戰大數據(Hadoop+Spark+Flink從平台構建到互動式數據分析離線實時)

  • 作者:編者:楊俊|責編:王斌//李培培
  • 出版社:機械工業
  • ISBN:9787111679660
  • 出版日期:2021/05/01
  • 裝幀:平裝
  • 頁數:236
人民幣:RMB 99 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書詳細介紹了大數據工程師在實際工作中應該熟練掌握的大數據技術。全書共8章,分別是大數據技術概述、搭建IDEA開發環境及Linux虛擬機、基於Hadoop構建大數據平台、基於HBase和Kafka構建海量數據存儲與交換系統、用戶行為離線分析——構建日誌採集和分析平台、基於Spark的用戶行為實時分析、基於Flink的用戶行為實時分析、用戶行為數據可視化。本書以一個完整的大數據項目為主線,涵蓋Hadoop、Spark、Flink等主流大數據技術,按照大數據工程師的項目開發流程,理論與實踐結合,逐步推進,使讀者在學習大數據核心技術的同時,也能掌握開發大數據項目的完整流程,從而獲得大數據項目開發經驗。
    本書既可以作為大數據工程師的必備開發手冊,也可以作為高校大數據及相關專業的教材或實驗手冊。

作者介紹
編者:楊俊|責編:王斌//李培培
    楊俊,大數據架構師。大數據技術達人, Hadoop源碼級技術專家,擅長Hadoop、Spark、Flink等主流大數據生態技術。具有近10年大數據開發經驗,參與過10余個重量級大數據項目。曾任廣電數據咨詢公司大數據高級架構師,負責大數據平台架構設計與實施,並構建企業級數據倉庫。暢銷書《Hadoop大數據技術基礎與應用》作者。51CTO知名培訓講師,擁有20余萬粉絲,具有豐富的大數據技術培訓經驗,為數十家企業、院校開展過大數據技術課程培訓。

目錄
前言
第1章  大數據技術概述
  1.1  什麼是大數據
  1.2  大數據平台架構
    1.2.1  數據獲取
    1.2.2  數據存儲
    1.2.3  數據處理
    1.2.4  互動式分析
    1.2.5  機器學習與數據挖掘
    1.2.6  資源管理
  1.3  大數據工程師的技能樹
    1.3.1  大數據主流開發語言
    1.3.2  大數據平台的構建
    1.3.3  大數據採集
    1.3.4  大數據存儲與交換
    1.3.5  大數據離線計算
    1.3.6  大數據實時計算
  1.4  大數據項目需求分析與設計
    1.4.1  項目需求分析
    1.4.2  系統架構設計
    1.4.3  離線和實時計算數據流程設計
    1.4.4  大數據平台規劃
  1.5  本章小結
第2章  搭建IDEA開發環境及Linux虛擬機
  2.1  搭建IDEA開發環境
    2.1.1  JDK的安裝與配置
    2.1.2  Maven的安裝與配置
    2.1.3  IDEA的安裝與配置
    2.1.4  使用IDEA構建Maven項目
  2.2  搭建Linux虛擬機
    2.2.1  安裝Linux系統
    2.2.2  配置Linux靜態IP
    2.2.3  Linux主機名和IP映射
    2.2.4  關閉Linux防火牆
    2.2.5  創建Linux用戶和用戶組
    2.2.6  Linux SSH免密登錄
  2.3  本章小結
第3章  基於Hadoop構建大數據平台
  3.1  Zookeeper分散式協調服務
    3.1.1  Zookeeper架構設計及原理
    3.1.2  Zookeeper集群安裝前的準備工作
    3.1.3  Zookeeper集群的安裝部署
    3.1.4  Zookeeper shell的操作
  3.2  HDFS分散式文件系統
    3.2.1  HDFS架構設計及原理
    3.2.2  HDFS的高可用(HA)
    3.2.3  HDFS聯邦機制
  3.3  YARN資源管理系統
    3.3.1  YARN架構設計及原理
    3.3.2  MapReduce on YARN工作流程

    3.3.3  YARN的容錯性
    3.3.4  YARN的高可用(HA)
    3.3.5  YARN的調度器及使用
  3.4  Hadoop分散式集群的構建
    3.4.1  HDFS分散式集群的構建
    3.4.2  YARN分散式集群的構建
    3.4.3  Hadoop集群運行測試
    3.4.4  Hadoop集群調優
  3.5  MapReduce分散式計算框架
    3.5.1  MapReduce概述
    3.5.2  MapReduce編程模型
    3.5.3  MapReduce應用示例
    3.5.4  WordCount代碼實現
  3.6  本章小結
第4章  基於HBase和Kafka構建 海量數據存儲與交換系統
  4.1  構建HBase分散式實時資料庫
    4.1.1  HBase概述
    4.1.2  HBase架構設計
    4.1.3  HBase分散式集群的構建
    4.1.4  HBase性能調優
    4.1.5  HBase新聞業務表建模
  4.2  搭建Kafka分散式消息系統
    4.2.1  Kafka概述
    4.2.2  KaNa架構設計
    4.2.3  KaNa分散式集群的構建
    4.2.4  KaNa集群監控
  4.3  本章小結
第5章  用戶行為離線分析——構建日誌採集和分析平台
  5.1  搭建Flume日誌採集系統
    5.1.1  Flume概述
    5.1.2  Flume架構設計
    5.1.3  Flume環境的搭建
    5.1.4  構建Flume集群
  5.2  使用Flume採集用戶行為數據
    5.2.1  Flume與KaNa集成
    5.2.2  Flume與HBase集成
    5.2.3  Flume與KaVa、HBase集成
  5.3  基於Hive的離線大數據分析
    5.3.1  Hive概述
    5.3.2  Hive架構設計
    5.3.3  Hive的安裝部署
    5.3.4  Hive在大數據倉庫中的應用
    5.3.5  Hive與HBase集成
  5.4  基於Hive的用戶行為數據離線分析
    5.4.1  離線項目架構設計
    5.4.2  用戶行為離線分析
  5.5  本章小結
第6章  基於Spark的用戶行為實時分析
  6.1  Spark快速入門
    6.1.1  Spark概述

    6.1.2  Spark的最簡安裝
    6.1.3  Spark實現WordCgunt
  6.2  Spark Core的核心功能
    6.2.1  Spark架構的原理
    6.2.2  彈性分散式數據集RDD
    6.2.3  Spark運算元
    6.2.4  Pair RDD及運算元
  6.3  Spark分散式集群的構建
  6.3  1 Spark的運行模式
    6.3.2  Standalone模式集群的構建
    6.3.3  Spark on YARN模式集群的構建
  6.4  基於Spark Streaming的新聞項目實時分析
    6.4.1  Spark Streaming概述
    6.4.2  Spark Sffeaming的運行原理
    6.4.3  Spark Streamin-g程模型
    6.4.4  Spark Streaming實時分析用戶行為
  6.5  基於Sphrk SQL的新聞項目離線分析
    6.5.1  Spark SQL架構的原理
    6.5.2  Spark SQL與Hive、MySQL、HBase集成
    6.5.3  Spark SQL用戶行為離線分析
  6.6  基於Spark Structured Streaming的新聞項目實時分析
    6.6.1  Structured Streaming概述
    6.6.2  Structured Streaming編程模型
    6.6.3  基於Structured Streaming的用戶行為實時分析
  6.7  本章小結
第7章  基於Flink的用戶行為實時分析
  7.1  Flink快速入門
    7.1.1  Flink概述
    7.1.2  Flink的最簡安裝
    7.1.3  Flink實現WordCount
  7.2  Flink分散式集群的構建
    7.2.1  Flink的運行模式
    7.2.2  Flink StandMone模式集群的構建
    7.2.3  Flink onYARN模式集群的構建
  7.3  基於Flink DataStream的新聞項目實時分析
    7.3.1  Flink DataStream概述
    7.3.2  Flink DataStream編程模型
    7.3.3  Flink DataStream用戶行為實時分析
  7.4  基於Flink DataSet的新聞項目離線分析
    7.4.1  Flink DataSet的運行原理
    7.4.2  FlinkDataSet編程模型
    7.4.3  Flink DataSet用戶行為離線分析
  7.5  本章小結
第8章  用戶行為數據可視化
  8.1  構建JavaWeb系統查詢用戶行為
    8.1.1  基於JavaWeb的系統架構
    8.1.2  構建並部署JavaWeb項目
    8.1.3  用戶行為查詢代碼開發
  8.2  用戶行為數據展示與分析
    8.2.1  項目打包發布

    8.2.2  項目整體聯調
    8.2.3  數據大屏展示與用戶行為分析
  8.3  本章小結

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032