幫助中心 | 我的帳號 | 關於我們

從零開始學Hadoop大數據分析(視頻教學版)

  • 作者:編者:溫春水//畢潔馨
  • 出版社:機械工業
  • ISBN:9787111619314
  • 出版日期:2019/03/01
  • 裝幀:平裝
  • 頁數:346
人民幣:RMB 89 元      售價:
放入購物車
加入收藏夾

內容大鋼
    溫春水、畢潔馨編著的《從零開始學Hadoop大數據分析(視頻教學版)》全面介紹了Hadoop大數據分析的基礎知識、14個核心組件模塊及4個項目實戰案例。為了幫助讀者高效、直觀地學習,作者特意為本書錄製了20小時同步配套教學視頻。
    本書共19章,分為3篇。第1篇Hadoop基礎知識,涵蓋大數據概述、Hadoop的安裝與配置、Hadoop分散式文件系統及基於Hadoop 3的HDFS高可用等相關內容;第2篇Hadoop核心技術,涵蓋的內容有Hadoop的分散式協調服務——ZooKeeper;分散式離線計算框架——MapReduce;Hadoop的集群資源管理系統——YARN;Hadoop的數據倉庫框架——Hive;大數據快速讀寫——HBase;海量日誌採集工具——Flume;Hadoop和關係型資料庫問的數據傳輸工具——sqoop;分散式消息隊列——Kafka;開源內存資料庫——Redis;Ambari和CDH;快速且通用的集群計算系統——Spark。第3篇Hadoop項目案例實戰,主要介紹了基於電商產品的大數據業務分析系統、用戶畫像分析、基於個性化的視頻推薦系統及電信離網用戶挽留4個項目實戰案例,以提高讀者的大數據項目開發水平。
    本書內容全面,實用性強,適合作為Hadoop大數據分析與挖掘的入門讀物,也可作為.Java程序員的進階讀物。另外,本書還特別適合想要提高大數據項目開發水平的人員閱讀。對於專業的培訓機構和相關院校而言,本書也是一本不可多得的教學用書。

作者介紹
編者:溫春水//畢潔馨

目錄
前言
第1篇  Hadoop基礎知識
  第1章  初識Hadoop
    1.1  大數據初探
      1.1.1  大數據技術
      1.1.2  大數據技術框架
      1.1.3  大數據的特點
      1.1.4  大數據在各個行業中的應用
      1.1.5  大數據計算模式
      1.1.6  大數據與雲計算、物聯網的關係
    1.2  Hadoop簡介
      1.2.1  Hadoop應用現狀
      1.2.2  Hadoop簡介與意義
    1.3  小結
  第2章  Hadoop的安裝與配置
    2.1  虛擬機的創建
    2.2  安裝Linux系統
    2.3  配置網路信息
    2.4  克隆伺服器
    2.5  SSH免密碼登錄
    2.6  安裝和配置JDK
      2.6.1  上傳安裝包
      2.6.2  安裝JDK
      2.6.3  配置環境變數
    2.7  Hadoop環境變數配置
      2.7.1  解壓縮Hadoop壓縮包
      2.7.2  配置Hadoop的bin和sbin文件夾到環境變數中
      2.7.3  修改/etc/hadoop/hadoop-env.sh
    2.8  Hadoop分散式安裝
      2.8.1  偽分散式安裝
      2.8.2  完全分散式安裝
    2.9  小結
  第3章  Hadoop分散式文件系統
    3.1  DFS介紹
      3.1.1  什麼是DFS
      3.1.2  DFS的結構
    3.2  HDFS介紹
      3.2.1  HDFS的概念及體系結構
      3.2.2  HDFS的設計
      3.2.3  HDFS的優點和缺點
      3.2.4  HDFS的執行原理
      3.2.5  HDFS的核心概念
      3.2.6  HDFS讀文件流程
      3.2.7  HDFS寫文件流程
      3.2.8  Block的副本放置策略
    3.3  Hadoop中HDFS的常用命令
      3.3.1  對文件的操作
      3.3.2  管理與更新
    3.4  HDFS的應用
      3.4.1  基於Shell的操作

      3.4.2  基於Java API的操作
      3.4.3  創建文件夾
      3.4.4  遞歸顯示文件
      3.4.5  文件上傳
      3.4.6  文件下載
    3.5  小結
  第4章  基於Hadoop 3的HDFS高可用
    4.1  Hadoop 3.x的發展
      4.1.1  Hadoop 3新特性
      4.1.2  Hadoop 3 HDFS集群架構
    4.2  Hadoop 3 HDFS完全分散式搭建
      4.2.1  安裝JDK
      4.2.2  配置JDK環境變數
      4.2.3  配置免密碼登錄
      4.2.4  配置IP和主機名字映射關係
      4.2.5  SSH免密碼登錄設置
        4  .
    4.3  什麼是HDFS高可用
      4.3.1  HDFS高可用實現原理
      4.3.2  HDFS高可用實現
    4.4  搭建HDFS高可用
      4.4.1  配置ZooKeeper
      4.4.2  配置Hadoop配置文件
      4.4.3  將配置文件複製到其他節點上
      4.4.4  啟動JN節點
      4.4.5  格式化
      4.4.6  複製元數據到node2節點上
      4.4.7  格式化ZKFC
      4.4.8  啟動集群
      4.4.9  通過瀏覽器查看集群狀態
      4.4.10  高可用測試
    4.5  小結
第2篇  Hadoop核心技術
  第5章  Hadoop的分散式協調服務——ZooKeeper
    5.1  ZooKeeper的核心概念
      5.1.1  Session會話機制
      5.1.2  數據節點、版本與Watcher的關聯
      5.1.3  ACL策略
    5.2  ZooKeeper的安裝與運行
    5.3  ZooKeeper伺服器端的常用命令
    5.4  客戶端連接ZooKeeper的相關操作
      5.4.1  查看ZooKeeper常用命令
      5.4.2  connect命令與ls命令
      5.4.3  create命令——創建節點
      5.4.4  get命令——獲取數據與信息
      5.4.5  set命令——修改節點內容
      5.4.6  delete命令——刪除節點
    5.5  使用Java API訪問ZooKeeper
      5.5.1  環境準備與創建會話實例
      5.5.2  節點創建實例

      5.5.3  Java API訪問ZooKeeper實例
    5.6  小結
  第6章  分散式離線計算框架——MapReduce
    6.1  MapReduce概述
      6.1.1  MapReduce的特點
      6.1.2  MapReduce的應用場景
    6.2  MapReduce執行過程
      6.2.1  單詞統計實例
      6.2.2  MapReduce執行過程
      6.2.3  MapReduce的文件切片Split
      6.2.4  Map過程和Reduce過程
      6.2.5  Shuffle過程
    6.3  MapReduce實例
      6.3.1  WordCount本地測試實例
      6.3.2  ETL本地測試實例
    6.4  溫度排序實例
      6.4.1  時間和溫度的封裝類MyKey.Java
      6.4.2  Map任務MyMapper.java
      6.4.3  數據分組類MyGroup.Java
      6.4.4  溫度排序類MySort.java
      6.4.5  數據分區MyPartitioner.java
      6.4.6  Reducer任務MyReducer.java
      6.4.7  主函數RunJob.java
    6.5  小結
  第7章  Hadoop的集群資源管理系統——YARN
    7.1  為什麼要使用YARN
    7.2  YARN的基本架構
      7.2.1  ResourceManager進程
      7.2.2  ApplicationMaster和NodeManager
    7.3  YARN工作流程
    7.4  YARN搭建
    7.5  小結
  第8章  Hadoop的數據倉庫框架——Hive
    8.1  Hive的理論基礎
      8.1.1  什麼是Hive
      8.1.2  Hive和資料庫的異同
      8.1.3  Hive設計的目的與應用
      8.1.4  Hive的運行架構
      8.1.5  Hive的執行流程
      8.1.6  Hive服務
      8.1.7  元數據存儲Metastore
      8.1.8  Embedded模式
      8.1.9  Local模式
      8.1.10  Remote模式
    8.2  Hive的配置與安裝
      8.2.1  安裝MySQL
      8.2.2  配置Hive
    8.3  Hive表的操作
      8.3.1  創建Hive表
      8.3.2  導入數據

    8.4  表的分區與分桶
      8.4.1  表的分區
      8.4.2  表的分桶
    8.5  內部表與外部表
      8.5.1  內部表
      8.5.2  外部表
    8.6  內置函數與自定義函數
      8.6.1  內置函數實例
      8.6.2  自定義UDAF函數實例
    8.7  通過Java訪問Hive
    8.8  Hive優化
      8.8.1  MapReduce優化
      8.8.2  配置優化
    8.9  小結
  第9章  大數據快速讀寫——HBase
    9.1  關於NoSQL
      9.1.1  什麼是NoSQL
      9.1.2  NoSQL資料庫的分類
      9.1.3  NoSQL資料庫的應用
      9.1.4  關係型資料庫與非關係型資料庫的區別
    9.2  HBase基礎
      9.2.1  HBase簡介
      9.2.2  HBase數據模型
      9.2.3  HBase體系架構及組件
      9.2.4  HBase執行原理
    9.3  HBase安裝
    9.4  HBase的Shell操作
    9.5  Java API訪問HBase實例
      9.5.1  創建表
      9.5.2  插入數據
      9.5.3  查詢數據
    9.6  小結
  第10章  海量日誌採集工具——Flume
    10.1  什麼是Flume
    10.2  Flume的特點
    10.3  Flume架構
    10.4  Flume的主要組件
      10.4.1  Event、Client與Agent——數據傳輸
      10.4.2  Source—Event接收
      10.4.3  Channel—Event傳輸
      10.4.4  Sink—Event發送
      10.4.5  其他組件
    10.5  Flume安裝
    10.6  Flume應用典型實例
      10.6.1  本地數據讀取(conf1)
      10.6.2  收集至HDFS
      10.6.3  基於日期分區的數據收集
    10.7  通過exec命令實現數據收集
      10.7.1  安裝工具
      10.7.2  編輯配置文件conf

      10.7.3  運行Flume
      10.7.4  查看生成的文件
      10.7.5  查看HDFS中的數據
    10.8  小結
  第11章  Hadoop和關係型資料庫間的數據傳輸工具——Sqoop
    11.1  什麼是Sqoop
    11.2  Sqoop工作機制
    11.3  Sqoop的安裝與配置
      11.3.1  下載Sqoop
      11.3.2  Sqoop配置
    11.4  Sqoop數據導入實例
      11.4.1  向HDFS中導入數據
      11.4.2  將數據導入Hive
      11.4.3  向HDFS中導入查詢結果
    11.5  Sqoop數據導出實例
    11.6  小結
  第12章  分散式消息隊列——Kafka
    12.1  什麼是Kafka
    12.2  Kafka的架構和主要組件
      12.2.1  消息記錄的類別名——Topic
      12.2.2  Producer與Consumer——數據的生產和消費
      12.2.3  其他組件——Broker、Partition、Offset、Segment
    12.3  Kafka的下載與集群安裝
      12.3.1  安裝包的下載與解壓
      12.3.2  Kafka的安裝配置
    12.4  Kafka應用實例
      12.4.1  Producer實例
      12.4.2  Consumer實例
    12.5  小結
  第13章  開源的內存資料庫——Redis
    13.1  Redis簡介
      13.1.1  什麼是Redis
      13.1.2  Redis的特點
    13.2  Redis安裝與配置
    13.3  客戶端登錄
      13.3.1  密碼為空登錄
      13.3.2  設置密碼登錄
    13.4  Redis的數據類型
      13.4.1  String類型
      13.4.2  List類型
      13.4.3  Hash類型
      13.4.4  Set類型
    13.5  小結
  第14章  Ambari和CDH
    14.1  Ambari的安裝與集群管理
      14.1.1  認識HDP與Ambari
      14.1.2  Ambari的搭建
      14.1.3  配置網卡與修改本機名
      14.1.4  定義DNS伺服器與修改hosts主機映射關係
      14.1.5  關閉防火牆並安裝JDK

      14.1.6  升級OpenSSL安全套接層協議版本
      14.1.7  關閉SELinux的強制訪問控制
      14.1.8  SSH免密碼登錄
      14.1.9  同步NTP
      14.1.10  關閉Linux的THP服務
      14.1.11  配置UMASK與HTTP服務
      14.1.12  安裝本地源製作相關工具與Createrepo
      14.1.13  禁止離線更新與製作本地源
      14.1.14  安裝Ambari-server與MySQL
      14.1.15  安裝Ambari
      14.1.16  安裝Agent與Ambari登錄安裝
      14.1.17  安裝部署問題解決方案
    14.2  CDH的安裝與集群管理
      14.2.1  什麼是CDH和Cloudera Manager介紹
      14.2.2  Cloudera Manager與Ambari對比的優勢
      14.2.3  CDH安裝和網卡配置
      14.2.4  修改本機名與定義DNS伺服器
      14.2.5  修改hosts主機映射關係
      14.2.6  關閉防火牆
      14.2.7  安裝JDK
      14.2.8  升級OpenSSL安全套接層協議版本
      14.2.9  禁用SELinux的強制訪問功能
      14.2.10  SSH 免密碼登錄
      14.2.11  同步NTP安裝
      14.2.12  安裝MySQL
      14.2.13  安裝Cloudera Manager
      14.2.14  添加MySQL驅動包和修改Agent配置
      14.2.15  初始化CM5資料庫和創建cloudera-scm用戶
      14.2.16  準備Parcels
      14.2.17  CDH的安裝配置
    14.3  小結
  第15章  快速且通用的集群計算系統——Spark
    15.1  Spark基礎知識
      15.1.1  Spark的特點
      15.1.2  Spark和Hadoop的比較
    15.2  彈性分散式數據集RDD
      15.2.1  RDD的概念
      15.2.2  RDD的創建方式
      15.2.3  RDD的操作
      15.2.4  RDD的執行過程
    15.3  Spark作業運行機制
    15.4  運行在YARN上的Spark
      15.4.1  在YARN上運行Spark
      15.4.2  Spark在YARN上的兩種部署模式
    15.5  Spark集群安裝
      15.5.1  Spark安裝包的下載
      15.5.2  Spark安裝環境
      15.5.3  Scala安裝和配置
      15.5.4  Spark分散式集群配置
    15.6  Spark實例詳解

      15.6.1  網站用戶瀏覽次數最多的URL統計
      15.6.2  用戶地域定位實例
    15.7  小結
第3篇  Hadoop項目案例實戰
  第16章  基於電商產品的大數據業務分析系統實戰
    16.1  項目背景、實現目標和項目需求
    16.2  功能與流程
      16.2.1  用戶信息
      16.2.2  商品信息
      16.2.3  購買記錄
    16.3  數據收集
      16.3.1  Flume的配置文件
      16.3.2  啟動Flume
      16.3.3  查看採集后的文件
      16.3.4  通過後台命令查看文件
      16.3.5  查看文件內容
      16.3.6  上傳user.list文件
      16.3.7  上傳brand.list目錄
    16.4  數據預處理
    16.5  數據分析——創建外部表
    16.6  建立模型
      16.6.1  各年齡段用戶消費總額
      16.6.2  查詢各品牌銷售總額
      16.6.3  查詢各省份消費總額
      16.6.4  使用Sqoop將數據導入MySQL資料庫
    16.7  數據可視化
    16.8  小結
  第17章  用戶畫像分析實戰
    17.1  項目背景
    17.2  項目目標與項目開發過程
      17.2.1  數據採集
      17.2.2  數據預處理
      17.2.3  模型構建
      17.2.4  數據分析
    17.3  核心代碼解讀
      17.3.1  項目流程介紹
      17.3.2  核心類的解讀
      17.3.3  core-site.xml配置文件
      17.3.4  hdfs-site.xml配置文件
      17.3.5  UserProfile.properties配置文件
      17.3.6  LoadConfig.java:讀取配置信息
      17.3.7  ReadFile.java:讀取文件
      17.3.8  ReadFromHdfs.java:提取信息
      17.3.9  UserProfile.java:創建用戶畫像
      17.3.10  TextArrayWritable.java:字元串處理工具類
      17.3.11  MapReduce任務1:UserProfileMapReduce.java
      17.3.12  MapReduce任務2:UserProfileMapReduce2.java
      17.3.13  UserProfilePutInHbaseMap.java:提取用戶畫像
      17.3.14  UserProfilePutInHbaseReduce:存儲用戶畫像
    17.4  項目部署

    17.5  小結
  第18章  基於個性化的視頻推薦系統實戰
    18.1  項目背景
    18.2  項目目標與推薦系統簡介
      18.2.1  推薦系統的分類
      18.2.2  推薦模型的構建流程
      18.2.3  推薦系統核心演算法
      18.2.4  如何基於Mahout框架完成商品推薦
      18.2.5  基於Mahout框架的商品推薦實例
    18.3  推薦系統項目架構
    18.4  推薦系統模型構建
    18.5  核心代碼
      18.5.1  公共部分
      18.5.2  離線部分
      18.5.3  在線部分
    18.6  小結
  第19章  電信離網用戶挽留實戰
    19.1  商業理解
    19.2  數據理解
      19.2.1  收集數據
      19.2.2  了解數據
      19.2.3  保證數據質量
    19.3  數據整理
      19.3.1  數據整合
      19.3.2  數據過濾
    19.4  數據清洗
      19.4.1  雜訊識別
      19.4.2  離群值和極端值的定義
      19.4.3  離群值處理方法
      19.4.4  數據空值處理示例
    19.5  數據轉換
      19.5.1  變數轉換
      19.5.2  壓縮分類水平數
      19.5.3  連續數據離散化
      19.5.4  變換啞變數
      19.5.5  數據標準化
      19.5.6  數據壓縮
    19.6  建模
      19.6.1  決策樹演算法概述
      19.6.2  決策樹的訓練步驟
      19.6.3  訓練決策樹
        19.6.4  C4.5  演算法
      19.6.5  決策樹剪枝
    19.7  評估
      19.7.1  混淆矩陣
      19.7.2  ROC曲線
    19.8  部署
    19.9  用戶離網案例代碼詳解
      19.9.1  數據準備
      19.9.2  相關性分析

      19.9.3  最終建模
      19.9.4  模型評估
    19.10  小結

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032