幫助中心 | 我的帳號 | 關於我們

大數據Hadoop3.X分散式處理實戰

  • 作者:編者:吳章勇//楊強|責編:俞彬
  • 出版社:人民郵電
  • ISBN:9787115524669
  • 出版日期:2020/04/01
  • 裝幀:平裝
  • 頁數:370
人民幣:RMB 79 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書以實戰開發為原則,以Hadoop 3.X生態系統內的主要大數據工具整合應用及項目開發為主線,通過Hadoop大數據開發中常見的11個典型模塊和3個完整項目案例,詳細介紹HDFS、MapReduce、HBase、Hive、Sqoop、Spark等主流大數據工具的整合使用。本書附帶資源包括本書核心內容的教學視頻,本書所涉及的源代碼、參考資料等。
    全書共14章,分為3篇,涵蓋的主要內容有Hadoop及其生態組件偽分散式安裝和完全分散式安裝、分散式文件系統HDFS、分散式計算框架MapReduce、NoSQL資料庫HBase、分散式數據倉庫Hive、數據轉換工具Sqoop、內存計算框架Spark、海量Web日誌分析系統、電商商品推薦系統、分散式垃圾消息識別系統等。
    本書內容豐富、案例典型、實用性強,適合各個層次希望學習大數據開發技術的人員閱讀,尤其適合有一定Java 基礎而要進行Hadoop應用開發的人員閱讀。

作者介紹
編者:吳章勇//楊強|責編:俞彬

目錄
第一篇  Hadoop技術
  第1章  大數據與Hadoop概述
    1.1  大數據概述
      1.1.1  大數據的定義
      1.1.2  大數據行業的發展
      1.1.3  大數據的典型應用
    1.2  Hadoop概述
      1.2.1  Hadoop簡介
      1.2.2  Hadoop生態子項目
      1.2.3  Hadoop 3.X的新特性
    1.3  小結
    1.4  配套視頻
  第2章  Hadoop偽分散式安裝
    2.1  Hadoop偽分散式安裝前的準備
      2.1.1  安裝VMware
      2.1.2  安裝CentOS 7
      2.1.3  配置CentOS 7:接受協議
      2.1.4  配置CentOS 7:登錄系統
      2.1.5  配置CentOS 7:設置IP
      2.1.6  配置CentOS 7:修改主機名
      2.1.7  配置CentOS 7:配置hosts文件
      2.1.8  配置CentOS 7:關閉防火牆
      2.1.9  配置CentOS 7:禁用selinux
      2.1.10  配置CentOS 7:設置SSH免密碼登錄
      2.1.11  配置CentOS 7:重啟
    2.2  Hadoop偽分散式安裝
      2.2.1  安裝WinSCP
      2.2.2  安裝PieTTY
      2.2.3  安裝JDK
      2.2.4  安裝Hadoop
    2.3  Hadoop驗證
      2.3.1  格式化
      2.3.2  啟動Hadoop
      2.3.3  查看Hadoop相關進程
      2.3.4  瀏覽文件
      2.3.5  瀏覽器訪問
    2.4  小結
    2.5  配套視頻
  第3章  Hadoop分散式文件系統——HDFS
    3.1  HDFS原理
      3.1.1  HDFS的假設前提和設計目標
      3.1.2  HDFS的組件
      3.1.3  HDFS數據複製
      3.1.4  HDFS健壯性
      3.1.5  HDFS數據組織
    3.2  HDFS Shell
      3.2.1  Hadoop文件操作命令
      3.2.2  Hadoop系統管理命令
    3.3  HDFS Java API
      3.3.1  搭建Linux下Eclipse開發環境

      3.3.2  為Eclipse安裝Hadoop插件
      3.3.3  HDFS Java API示例
    3.4  小結
    3.5  配套視頻
  第4章  分散式計算框架MapReduce
    4.1  MapReduce原理
      4.1.1  MapReduce概述
      4.1.2  MapReduce的主要功能
      4.1.3  MapReduce的處理流程
    4.2  MapReduce編程基礎
      4.2.1  內置數據類型介紹
      4.2.2  WordCount入門示例
      4.2.3  MapReduce分區與自定義數據類型
    4.3  MapReduce綜合實例——數據去重
      4.3.1  實例描述
      4.3.2  設計思路
      4.3.3  程序代碼
      4.3.4  運行結果
    4.4  MapReduce綜合實例——數據排序
      4.4.1  實例描述
      4.4.2  設計思路
      4.4.3  程序代碼
      4.4.4  運行結果
    4.5  MapReduce綜合實例——求學生平均成績
      4.5.1  實例描述
      4.5.2  設計思路
      4.5.3  程序代碼
      4.5.4  運行結果
    4.6  MapReduce綜合實例——WordCount高級示例
    4.7  小結
    4.8  配套視頻
第二篇  Hadoop 生態系統的主要大數據工具整合應用
  第5章  NoSQL資料庫HBase
    5.1  HBase原理
      5.1.1  HBase概述
      5.1.2  HBase核心概念
      5.1.3  HBase的關鍵流程
    5.2  HBase偽分散式安裝
      5.2.1  安裝HBase的前提條件
      5.2.2  解壓並配置環境變數
      5.2.3  配置HBase參數
      5.2.4  驗證HBase
    5.3  HBase Shell
      5.3.1  HBase Shell常用命令
      5.3.2  HBase Shell綜合示例
      5.3.3  HBase Shell的全部命令
    5.4  小結
    5.5  配套視頻
  第6章  HBase高級特性
    6.1  HBase Java API

      6.1.1  HBase Java API介紹
      6.1.2  HBase Java API示例
    6.2  HBase與MapReduce的整合
      6.2.1  HBase與MapReduce的整合概述
      6.2.2  HBase與MapReduce的整合示例
    6.3  小結
    6.4  配套視頻
  第7章  分散式數據倉庫Hive
    7.1  Hive概述
      7.1.1  Hive的定義
      7.1.2  Hive的設計特徵
      7.1.3  Hive的體系結構
    7.2  Hive偽分散式安裝
      7.2.1  安裝Hive的前提條件
      7.2.2  解壓並配置環境變數
      7.2.3  安裝MySQL
      7.2.4  配置Hive
      7.2.5  驗證Hive
    7.3  Hive QL的基礎功能
      7.3.1  操作資料庫
      7.3.2  創建表
      7.3.3  數據準備
    7.4  Hive QL的高級功能
      7.4.1  select查詢
      7.4.2  函數
      7.4.3  統計函數
      7.4.4  distinct去除重複值
      7.4.5  limit限制返回記錄的條數
      7.4.6  為列名取別名
      7.4.7  case when then多路分支
      7.4.8  like模糊查詢
      7.4.9  group by分組統計
      7.4.10  having過濾分組統計結果
      7.4.11  inner join內聯接
      7.4.12  left outer join和right outer join外聯接
      7.4.13  full outer join外部聯接
      7.4.14  order by排序
      7.4.15  where查找
    7.5  小結
    7.6  配套視頻
  第8章  Hive高級特性
    8.1  Beeline
      8.1.1  使用Beeline的前提條件
      8.1.2  Beeline的基本操作
      8.1.3  Beeline的參數選項與管理命令
    8.2  Hive JDBC
      8.2.1  運行Hive JDBC的前提條件
      8.2.2  Hive JDBC基礎示例
      8.2.3  Hive JDBC綜合示例
    8.3  Hive函數

      8.3.1  內置函數
      8.3.2  自定義函數
    8.4  Hive表的高級特性
      8.4.1  外部表
      8.4.2  分區表
    8.5  小結
    8.6  配套視頻
  第9章  數據轉換工具Sqoop
    9.1  Sqoop概述與安裝
      9.1.1  Sqoop概述
      9.1.2  Sqoop安裝
    9.2  Sqoop導入數據
      9.2.1  更改MySQL的root用戶密碼
      9.2.2  準備數據
      9.2.3  導入數據到HDFS
      9.2.4  查看HDFS數據
      9.2.5  導入數據到Hive
      9.2.6  查看Hive數據
    9.3  Sqoop導出數據
      9.3.1  準備MySQL表
      9.3.2  導出數據到MySQL
      9.3.3  查看MySQL中的導出數據
    9.4  深入理解Sqoop的導入與導出
    9.5  小結
    9.6  配套視頻
  第10章  內存計算框架Spark
    10.1  Spark入門
      10.1.1  Spark概述
      10.1.2  Spark偽分散式安裝
      10.1.3  由Java到Scala
      10.1.4  Spark的應用
      10.1.5  Spark入門示例
    10.2  Spark Streaming
      10.2.1  Spark Streaming概述
      10.2.2  Spark Streaming示例
    10.3  Spark SQL
      10.3.1  Spark SQL概述
      10.3.2  spark-sql命令
      10.3.3  使用Scala操作Spark SQL
    10.4  小結
    10.5  配套視頻
  第11章  Hadoop及其常用組件集群安裝
    11.1  Hadoop集群安裝
      11.1.1  安裝並配置CentOS
      11.1.2  安裝JDK
      11.1.3  安裝Hadoop
      11.1.4  遠程複製文件
      11.1.5  驗證Hadoop
    11.2  HBase集群安裝
      11.2.1  解壓並配置環境變數

      11.2.2  配置HBase參數
      11.2.3  遠程複製文件
      11.2.4  驗證HBase
    11.3  Hive集群安裝
      11.3.1  解壓並配置環境變數
      11.3.2  安裝MySQL
      11.3.3  配置Hive
      11.3.4  驗證Hive
    11.4  Spark集群安裝
      11.4.1  安裝Scala
      11.4.2  安裝Spark
      11.4.3  配置Spark
      11.4.4  遠程複製文件
      11.4.5  驗證Spark
    11.5  小結
    11.6  配套視頻
第三篇  實戰篇
  第12章  海量Web日誌分析系統
    12.1  案例介紹
      12.1.1  分析Web日誌數據的目的
      12.1.2  Web日誌分析的典型應用場景
      12.1.3  日誌的不確定性
    12.2  案例分析
      12.2.1  日誌分析的KPI
      12.2.2  案例系統結構
      12.2.3  日誌分析方法
    12.3  案例實現
      12.3.1  定義日誌相關屬性欄位
      12.3.2  數據合法標識(在分析時是否被過濾)
      12.3.3  解析日誌
      12.3.4  日誌合法性過濾
      12.3.5  頁面訪問量統計的實現
      12.3.6  頁面獨立IP訪問量統計的實現
      12.3.7  用戶單位時間PV的統計實現
      12.3.8  用戶訪問設備信息統計的實現
    12.4  小結
    12.5  配套視頻
  第13章  電商商品推薦系統
    13.1  案例介紹
      13.1.1  推薦演算法
      13.1.2  案例的意義
      13.1.3  案例需求
    13.2  案例設計
      13.2.1  協同過濾
      13.2.2  基於用戶的協同過濾演算法
      13.2.3  基於物品的協同過濾演算法
      13.2.4  演算法實現設計
      13.2.5  推薦步驟與架構設計
    13.3  案例實現
      13.3.1  實現HDFS文件操作工具

      13.3.2  實現任務步驟1:匯總用戶對所有物品的評分信息
      13.3.3  實現任務步驟2:獲取物品同現矩陣
      13.3.4  實現任務步驟3:合併同現矩陣和評分矩陣
      13.3.5  實現任務步驟4:計算推薦結果
      13.3.6  實現統一的任務調度
    13.4  小結
    13.5  配套視頻
  第14章  分散式垃圾消息識別系統
    14.1  案例介紹
      14.1.1  案例內容
      14.1.2  案例應用的主體結構
      14.1.3  案例運行結果
    14.2  RPC遠程方法調用的設計
      14.2.1  Java EE的核心優勢:RMI
      14.2.2  RMI的基本原理
      14.2.3  自定義RPC組件分析
    14.3  數據分析設計
      14.3.1  垃圾消息識別演算法——樸素貝葉斯演算法
      14.3.2  進行分散式貝葉斯分類學習時的全局計數器
      14.3.3  數據清洗分析結果存儲
    14.4  案例實現
      14.4.1  自定義的RPC組件服務端相關實現
      14.4.2  自定義的RPC組件客戶端相關實現
      14.4.3  業務伺服器實現
      14.4.4  業務客戶端實現
    14.5  小結
    14.6  配套視頻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032