幫助中心 | 我的帳號 | 關於我們

Hadoop大數據開發實戰(慕課版信息技術人才培養系列規劃教材)/大數據技術實戰系列

  • 作者:編者:羅力文//胡耀文//潘慶先|責編:李召
  • 出版社:人民郵電
  • ISBN:9787115519245
  • 出版日期:2020/08/01
  • 裝幀:平裝
  • 頁數:267
人民幣:RMB 59.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書全面介紹了Hadoop這一高性能的海量數據處理和分析平台。全書共分11章:第1章首先讓讀者對大數據及Hadoop有一個總體的認識;第2章主要講解如何搭建Hadoop集群;第3章?第5章講解HDFS分散式文件系統、MapReduce分散式計算框架以及ZooKeeper分散式協調服務;第6章講解Hadoop 2.0的新特性;第7章?第10章主要講解Hadoop生態圈中的相關輔助系統,包括Hive、HBase分散式存儲系統、Flume、Sqoop;第11章講解了綜合項目一一電商精準營銷,該項目涵蓋從前期設計到最終實施的整個過程,對全書知識點進行串聯和鞏固,使讀者加深對Hadoop技術的理解。
    本書避免一味地鋪陳理論,以實戰帶動講解,使讀者快速掌握技術並能學以致用。本書可作為普通高等院校的教材及教學參考書,也可作為大數據方向的培訓教材,還可作為Hadoop初學者及相關開發人員的參考書。

作者介紹
編者:羅力文//胡耀文//潘慶先|責編:李召

目錄
第1章  初識Hadoop
  1.1  大數據簡介
    1.1.1  大數據的五大特徵
    1.1.2  大數據的六大發展趨勢
    1.1.3  大數據在電商行業的應用
    1.1.4  大數據在交通行業的應用
    1.1.5  大數據在醫療行業的應用
  1.2  大數據技術的核心需求
  1.3  Hadoop簡介
    1.3.1  什麼是Hadoop
    1.3.2  Hadoop的產生和發展
    1.3.3  Hadoop的優缺點
    1.3.4  Hadoop版本介紹
    1.3.5  Hadoop生態圈的相關組件
    1.3.6  Hadoop應用介紹
    1.3.7  國內Hadoop的就業情況分析
    1.3.8  分散式系統概述
  1.4  離線數據分析流程介紹
    1.4.1  項目需求描述
    1.4.2  數據來源
    1.4.3  數據處理流程
    1.4.4  項目最終效果
  1.5  大數據學習流程
  1.6  本章小結
  1.7  習題
第2章  搭建Hadoop集群
  2.1  安裝準備
    2.1.1  虛擬機安裝
    2.1.2  虛擬機克隆
    2.1.3  Linux系統網路配置
    2.1.4  SSH服務配置
  2.2  Linux基本命令
    2.2.1  系統工作命令
    2.2.2  磁碟操作命令
    2.2.3  目錄與文件操作命令
    2.2.4  許可權操作命令
  2.3  Hadoop集群搭建
    2.3.1  Hadoop集群部署模式
    2.3.2  安裝JDK
    2.3.3  安裝Hadoop
    2.3.4  Hadoop集群配置
  2.4  Hadoop 集群測試
    2.4.1  格式化文件系統
    2.4.2  啟動和關閉Hadoop進程命令
    2.4.3  啟動和查看Hadoop進程
    2.4.4  查看Web界面
  2.5  使用Hadoop集群
  2.6  本章小結
  2.7  習題
第3章  HDFS分散式文件系統

  3.1  HDFS簡介
    3.1.1  HDFS的概念
    3.1.2  HDFS數據的存儲和讀取方式
    3.1.3  HDFS的特點
  3.2  HDFS存儲架構和數據讀寫流程
    3.2.1  HDFS的存儲架構
    3.2.2  HDFS的數據讀寫流程
  3.3  HDFS的Shell命令
  3.4  Java程序操作HDFS
    3.4.1  HDFS Java API概述
    3.4.2  使用Java API操作HDFS
  3.5  Hadoop序列化
    3.5.1  Hadoop序列化簡介
    3.5.2  常用實現Writable介面的類
    3.5.3  自定義實現Writable介面的類
  3.6  Hadoop小文件處理
    3.6.1  壓縮小文件
    3.6.2  創建序列文件
  3.7  通信機制RPC
    3.7.1  RPC簡介
    3.7.2  Hadoop的RPC架構
  3.8  本章小結
  3.9  習題
第4章  MapReduce分散式計算框架
  4.1  認識MapReduce
    4.1.1  MapReduce核心思想
    4.1.2  MapReduce編程模型
    4.1.3  MapReduce編程案例——WordCount
  4.2  MapReduce編程組件
    4.2.1  InputFormat組件
    4.2.2  OutputFormat組件
    4.2.3  RecordReader組件和RecordWriter組件
    4.2.4  Partitioner組件
    4.2.5  Combiner組件
  4.3  MapReduce作業解析
    4.3.1  MapReduce作業簡介
    4.3.2  MapReduce作業運行時的資源調度
    4.3.3  MapReduce作業運行流程
  4.4  MapReduce工作原理
    4.4.1  Map任務工作原理
    4.4.2  Reduce任務工作原理
  4.5  Shuffle階段
    4.5.1  Shuffle的概念
    4.5.2  Map端的Shuffle
    4.5.3  Reduce端的Shuffle
  4.6  優化——數據傾斜
  4.7  MapReduce典型案例——排序
    4.7.1  部分排序
    4.7.2  全排序
  4.8  MapReduce典型案例——倒排索引

    4.8.1  準備模擬數據
    4.8.2  輸出數據解析
    4.8.3  編寫MapReduce程序
  4.9  MapReduce典型案例——連接
    4.9.1  準備模擬數據
    4.9.2  輸出數據解析
    4.9.3  編寫MapReduce程序
  4.10  MapReduce典型案例——平均分以及百分比
    4.10.1  準備模擬數據
    4.10.2  輸出數據解析
    4.10.3  編寫MapReduce程序
  4.11  MapReduce典型案例——過濾敏感辭彙
    4.11.1  準備模擬數據
    4.11.2  創建敏感詞庫
    4.11.3  編寫MapReduce程序
  4.12  本章小結
  4.13  習題
第5章  ZooKeeper分散式協調服務
  5.1  認識ZooKeeper
    5.1.1  ZooKeeper簡介
    5.1.2  ZooKeeper的設計目的
    5.1.3  ZooKeeper的系統模型
    5.1.4  ZooKeeper中的角色
    5.1.5  ZooKeeper的工作原理
  5.2  ZooKeeper安裝和常用命令
    5.2.1  ZooKeeper單機模式
    5.2.2  ZooKeeper全分散式
    5.2.3  ZooKeeper伺服器常用腳本
    5.2.4  ZooKeeper客戶端節點和命令
  5.3  ZooKeeper客戶端編程
    5.3.1  配置開發環境
    5.3.2  Java程序操作ZooKeeper客戶端
  5.4  ZooKeeper典型應用場景
    5.4.1  數據發布與訂閱
    5.4.2  命名服務
    5.4.3  分散式鎖
  5.5  本章小結
  5.6  習題
第6章  Hadoop 2.0新特性
    6.1  Hadoop 2.0  的改進
    6.1.1  HDFS存在的問題
    6.1.2  MapReduce存在的問題
6.1.3  HDFS 2.0解決HDFS 1.0中的問題
  6.2  YARN資源管理框架
    6.2.1  YARN簡介
    6.2.2  YARN架構
    6.2.3  YARN的優勢
  6.3  Hadoop的HA模式
    6.3.1  HA模式簡介
    6.3.2  HDFS的HA模式

    6.3.3  YARN的HA模式
    6.3.4  啟動和關閉Hadoop的HA模式
  6.4  本章小結
  6.5  習題
第7章  Hive
  7.1  數據倉庫簡介
    7.1.1  數據倉庫概述
    7.1.2  數據倉庫的使用
    7.1.3  數據倉庫的特點
    7.1.4  主流的數據倉庫
  7.2  認識Hive
    7.2.1  Hive簡介
    7.2.2  Hive架構
    7.2.3  Hive和關係型資料庫比較
  7.3  Hive安裝
  7.4  Hive數據類型
    7.4.1  Hive基本數據類型
    7.4.2  Hive複雜數據類型
  7.5  Hive資料庫操作
  7.6  Hive表
    7.6.1  內部表和外部表
    7.6.2  對錶進行分區
    7.6.3  對錶或分區進行桶操作
  7.7  Hive表的查詢
    7.7.1  select查詢語句
    7.7.2  視圖
    7.7.3  Join
  7.8  Hive函數
    7.8.1  Hive內置函數
    7.8.2  通過JDBC驅動程序使用Hiveserver2服務
    7.8.3  Hive用戶自定義函數
  7.9  Hive性能優化
  7.10  Hive案例分析
  7.11  本章小結
  7.12  習題
第8章  HBase分散式存儲系統
  8.1  認識HBase
    8.1.1  HBase簡介
    8.1.2  HBase的數據模型
    8.1.3  HBase架構
    8.1.4  HBase文件存儲格式
    8.1.5  HBase存儲流程
    8.1.6  HBase和HDFS
  8.2  HBase表設計
    8.2.1  列簇設計
    8.2.2  行鍵設計
  8.3  HBase安裝
    8.3.1  HBase的單機模式
    8.3.2  HBase的HA模式
  8.4  HBase Shell常用操作

  8.5  HBase編程
    8.5.1  配置開發環境
    8.5.2  使用Java API操作HBase
    8.5.3  使用HBase實現WordCount
  8.6  HBase過濾器和比較器
    8.6.1  過濾器
    8.6.2  比較器
    8.6.3  編程實例
  8.7  HBase與Hive結合
    8.7.1  HBase與Hive結合的原因
    8.7.2  Hive關聯HBase
  8.8  HBase性能優化
  8.9  本章小結
  8.10  習題
第9章  Flume
  9.1  認識Flume
    9.1.1  Flume簡介
    9.1.2  Flume的特點
  9.2  Flume基本組件
    9.2.1  Event
    9.2.2  Agent
  9.3  Flume安裝
  9.4  Flume數據流模型
  9.5  Flume的可靠性保證
    9.5.1  負載均衡
    9.5.2  故障轉移
  9.6  Flume攔截器
  9.7  採集案例
    9.7.1  採集目錄到HDFS
    9.7.2  採集文件到HDFS
  9.8  本章小結
  9.9  習題
第10章  Sqoop
  10.1  認識Sqoop
    10.1.1  Sqoop簡介
    10.1.2  Sqoop原理
    10.1.3  Sqoop架構
  10.2  Sqoop安裝
  10.3  Sqoop命令
    10.3.1  Sqoop資料庫連接參數
    10.3.2  Sqoop export參數
    10.3.3  Sqoop import參數
    10.3.4  Sqoop import命令的基本操作
  10.4  Sqoop數據導入
    10.4.1  將MySQL的數據導入HDFS
    10.4.2  將MySQL的數據導入Hive
    10.4.3  將MySQL的數據導入HBase
    10.4.4  增量導入
    10.4.5  按需導入
  10.5  Sqoop數據導出

    10.5.1  將HDFS的數據導出到MySQL
    10.5.2  將Hive的數據導出到MySQL
    10.5.3  將HBase的數據導出到MySQL
  10.6  Sqoop job
  10.7  本章小結
  10.8  習題
第11章  綜合項目——電商精準營銷
  11.1  項目概述
    11.1.1  項目背景介紹
    11.1.2  項目架構設計
  11.2  項目詳細介紹
    11.2.1  項目核心關注點
    11.2.2  重要概念
    11.2.3  維度
  11.3  項目模塊分析
    11.3.1  用戶基本信息分析模塊
    11.3.2  瀏覽器分析模塊
    11.3.3  地域分析模塊
    11.3.4  外鏈分析模塊
  11.4  數據採集
    11.4.1  日誌採集系統概述
    11.4.2  JS SDK收集數據
    11.4.3  Java SDK收集數據
    11.4.4  使用Flume搭建日誌採集系統
    11.4.5  日誌信息說明
  11.5  數據清洗
    11.5.1  分析需要清洗的數據
    11.5.2  解析數據格式轉換
    11.5.3  利用MapReduce清洗數據
  11.6  使用數據倉庫進行數據分析
    11.6.1  事件板塊數據分析
    11.6.2  訂單板塊數據分析
    11.6.3  時間板塊數據分析
  11.7  可視化
    11.7.1  ECharts簡介
    11.7.2  ECharts的優點
    11.7.3  操作流程
  11.8  本章小結
  11.9  習題
附錄

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032