幫助中心 | 我的帳號 | 關於我們

大數據工程項目開發實戰活頁式教程(人工智慧技術專業群系列教材)

  • 作者:編者:王倩|責編:關雅莉
  • 出版社:電子工業
  • ISBN:9787121468001
  • 出版日期:2024/01/01
  • 裝幀:活頁
  • 頁數:260
人民幣:RMB 68 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書圍繞Hadoop生態圈相關組件系統介紹大數據架構平台上的案例開發。全書共7章,其中,第1、2章介紹了數據流、數據平台及如何搭建Hadoop集群;第3、4章介紹了分散式文件系統HDFS、分散式計算框架MapReduce、YARN及數據倉庫Hive的架構優化;第5章介紹了Hadoop生態圈的相關輔助系統,包含Flume、Kafka、Sqoop:第6章介紹了Spark架構及相關核心組件;第7章介紹了離線綜合案例的開發,目的是讓用戶能夠利用Hadoop的相關組件進行項目的開發,加深對Hadoop生態圈技術的理解,同時通過大數據平台項目實戰,讓用戶了解大數據平台分析數據的應用。
    本書既可以作為高等職業院校、應用型本科院校電腦相關專業、信息系統相關專業、數據科學相關專業的大數據平台課程教材,又可以作為一線技術人員的操作參考教材。

作者介紹
編者:王倩|責編:關雅莉

目錄
第1章  數據
  1.1  數據流與大數據
    1.1.1  數據產生
    1.1.2  數據採集
    1.1.3  數據存儲和管理
  1.2  數據平台與技術
    1.2.1  離線數據平台的相關技術
    1.2.2  實時數據平台的相關技術
  習題1
  上機實驗1  大數據架構和組件選型
第2章  搭建大數據集群環境
  2.1  集群環境安裝準備
    2.1.1  學習任務:創建虛擬機
    2.1.2  啟動虛擬機並安裝Linux操作系統
    2.1.3  克隆虛擬機
    2.1.4  Linux操作系統網路配置
    2.1.5  SSH操作配置
  2.2  安裝JDK
  2.3  ZooKeeper集群部署
    2.3.1  ZooKeeper集群的安裝與配置
    2.3.2  ZooKeeper集群的啟動與關閉
  2.4  Hadoop集群部署
    2.4.1  Hadoop高可用集群規劃
    2.4.2  安裝Hadoop
    2.4.3  Hadoop高可用集群配置
    2.4.4  啟用Hadoop高可用集群
  習題2
  上機實驗2  VMware Workstation的安裝和使用
第3章  Hadoop核心組件原理與實踐
  3.1  分散式文件系統HDFS的認識與操作
    3.1.1  HDFS體系結構的認識
    3.1.2  HDFS Shell操作
    3.1.3  HDFS API操作
  3.2  分散式計算框架MapReduce的認識與操作
    3.2.1  MapReduce的認識
    3.2.2  MapReduce編程模型
    3.2.3  MapReduce WordCount編程實例
  3.3  YARN與Hadoop新特性的認識
    3.3.1  Hadoop2.0的認識
    3.3.2  YARN體系結構的認識
    3.3.3  YARN工作流程的認識
  習題3
  上機實驗3  最高氣溫統計案例
第4章  數據倉庫Hive應用實踐
  4.1  離線大數據處理技術Hive
    4.1.1  Hive出現背景
    4.1.2  Hive功能描述
    4.1.3  Hive基本架構
    4.1.4  Hive數據存儲
    4.1.5  Hive環境部署

  4.2  Hive SQL
    4.2.1  Hive關鍵概念
    4.2.2  Hive資料庫
    4.2.3  Hive表DDL和DML
  4.3  Hive SQL查詢語句
    4.3.1  select語句
    4.3.2  group by語句
    4.3.3  join語句
    4.3.4  Hive內置函數
    4.3.5  其他技術
  4.4  數據傾斜
    4.4.1  產生原因
    4.4.2  數據傾斜的表現
    4.4.3  Hive優化
  4.5  join無關的優化
    4.5.1  group by引起的數據傾斜優化
    4.5.2  count distinct優化
  4.6  Hive用戶自定義函數介面
    4.6.1  概述
    4.6.2  UDF概述
    4.6.3  需求分析
    4.6.4  UDF使用
  4.7  綜合案例—Olist巴西電子商務網站數據分析
    4.7.1  案例背景描述
    4.7.2  案例數據模型
    4.7.3  案例任務描述
    4.7.4  數據採集
    4.7.5  數據清洗和聚合
    4.7.6  數據分析
    4.7.7  案例總結
  習題4
  上機實驗4  Hive離線數據統計案例
第5章  離線處理輔助系統
  5.1  Flume日誌採集
    5.1.1  Flume簡介
    5.1.2  Flume日誌採集系統結構
    5.1.3  Flume安裝配置
    5.1.4  Flume負載均衡
    5.1.5  綜合案例—Flume多數據源分類採集
  5.2  Kafka消息訂閱
    5.2.1  Kafka簡介
    5.2.2  Kafka核心組件介紹
    5.2.3  Kafka工作流程分析
    5.2.4  安裝Kafka
    5.2.5  Kafka的命令行使用方式
  5.3  Sqoop數據遷移
    5.3.1  Sqoop簡介
    5.3.2  Sqoop的作用
    5.3.3  Sqoop的安裝
    5.3.4  導入MySQL數據到HDFS

    5.3.5  導出HDFS數據到MySQL
    5.3.6  案例一
    5.3.7  案例二
  習題5
  上機實驗5  離線處理組件的安裝配置
第6章  Spark流計算開發實踐
  6.1  Spark概述
    6.1.1  Spark優點
    6.1.2  Spark生態系統
    6.1.3  Spark環境部署
  6.2  SparkCore
    6.2.1  RDD概述
    6.2.2  RDD Transformation
    6.2.3  RDD Action
    6.2.4  RDD依賴
    6.2.5  RDD緩存
    6.2.6  Spark運行架構
    6.2.7  Checkpoint
    6.2.8  基於RDD的Spark編程
  6.3  Spark SQL
    6.3.1  Spark SQL概述
    6.3.2  Spark SQL編程
    6.3.3  Spark SQL外部數據源操作
  6.4  Spark Streaming
    6.4.1  Spark Streaming流處理框架概述
    6.4.2  Spark Streaming核心概念
    6.4.3  Spark Streaming編程
    6.4.4  Spark Streaming整合Flume
    6.4.5  Spark Streaming整合Kafka的兩種方式
  6.5  綜合案例—Spark城市旅遊熱力圖
  習題6
  上機實驗6  詞頻統計
第7章  大數據平台項目實戰
  7.1  項目介紹
  7.2  項目架構設計及技術選型
  7.3  數據採集
    7.3.1  準備數據採集開發環境
    7.3.2  分析網頁數據結構
  7.4  數據預處理
    7.4.1  網頁數據深度分析
    7.4.2  把數據上傳到HDFS集群中
  7.5  數據分析
    7.5.1  建立數據倉庫
    7.5.2  薪資區間分佈分析
    7.5.3  公司福利標籤詞頻分析
    7.5.4  職位技能需求詞頻統計
    7.5.5  城市詞頻統計
  7.6  數據導出
    7.6.1  Sqoop安裝
    7.6.2  Sqoop配置

    7.6.3  驗證Sqoop安裝
    7.6.4  創建MySQL數據倉庫
    7.6.5  使用Sqoop導出數據至MySQL
  7.7  數據可視化
    7.7.1  利用PyMySQL讀取數據到內存中
    7.7.2  使用PyEcharts畫圖

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032