幫助中心 | 我的帳號 | 關於我們

劍指大數據(Hadoop學習精要)/程序員硬核技術叢書

  • 作者:編者:尚矽谷教育|責編:李冰
  • 出版社:電子工業
  • ISBN:9787121443923
  • 出版日期:2022/11/01
  • 裝幀:平裝
  • 頁數:298
人民幣:RMB 105 元      售價:
放入購物車
加入收藏夾

內容大鋼
    Hadoop是使用最廣泛的大數據處理框架之一,在大數據領域有著極其重要的地位,掌握Hadoop可以讓學習者對大數據的理解更進一步。本書是基於Hadoop 3.1.3編寫的,從大數據的特點和處理難點入手,逐步講解Hadoop的起源和發展。從搭建Hadoop的學習環境開始,依次對Hadoop的三大功能模塊進行重點講解,並且結合大量案例,細緻地講解HDFS、MapReduce、YARN的內核原理和調優方法,還會擴展講解Hadoop的高可用實現、在生產環境中的調優方法及源碼解讀。
    本書廣泛適用於大數據的學習者與從業人員,是大數據學習的必備書籍。

作者介紹
編者:尚矽谷教育|責編:李冰

目錄
第1章  大數據概論
  1.1  大數據的特徵
  1.2  大數據的發展前景
    1.2.1  大數據的應用場景
    1.2.2  大數據的未來發展
  1.3  大數據生態體系與Hadoop
    1.3.1  Hadoop的發展史
    1.3.2  大數據生態體系
    1.3.3  Hadoop架構
  1.4  本章總結
第2章  環境準備
  2.1  安裝VMware
  2.2  安裝CentOS
  2.3  安裝遠程終端
    2.3.1  安裝Xshell
    2.3.2  安裝SecureCRT
  2.4  虛擬機配置
    2.4.1  網路配置
    2.4.2  網路IP地址配置
    2.4.3  主機名配置
    2.4.4  防火牆配置
    2.4.5  一般用戶配置
    2.4.6  克隆虛擬機
  2.5  本章總結
第3章  Hadoop快速上手
  3.1  集群角色
    3.1.1  Hadoop集群的主要角色
    3.1.2  YARN的主要組成部分
  3.2  本地模式
    3.2.1  安裝
    3.2.2  運行官方示常式序
  3.3  完全分散式模式
    3.3.1  SSH免密登錄
    3.3.2  shell腳本準備
    3.3.3  集群配置
    3.3.4  NameNode格式化問題
    3.3.5  配置歷史伺服器與日誌聚集功能
    3.3.6  Hadoop集群啟停腳本
    3.3.7  集群時間同步
  3.4  本章總結
第4章  分散式文件系統HDFS
  4.1  HDFS概述
    4.1.1  HDFS背景及定義
    4.1.2  HDFS的基本架構
  4.2  HDFS的shell操作
    4.2.1  命令大全
    4.2.2  命令行命令實操
  4.3  HDFS的API操作
    4.3.1  客戶端環境準備
    4.3.2  HDFS文件上傳案例

    4.3.3  HDFS文件下載案例
    4.3.4  HDFS文件重命名案例
    4.3.5  HDFS文件刪除案例
    4.3.6  HDFS文件詳情查看案例
    4.3.7  HDFS文件和文件夾判斷案例
  4.4  HDFS的讀/寫流程
    4.4.1  HDFS中的數據塊大小
    4.4.2  寫數據流程
    4.4.3  讀數據流程
  4.5  HDFS的工作機制
    4.5.1  NameNode和SecondaryNameNode的工作機制
    4.5.2  EditLog和FsImage文件解析
    4.5.3  檢查點時間設置
    4.5.4  DataNode的工作機制
    4.5.5  數據完整性
  4.6  本章總結
第5章  分散式計算MapReduce
  5.1  MapReduce概述
    5.1.1  MapReduce定義
    5.1.2  MapReduce核心思想
  5.2  MapReduce編程入門
    5.2.1  官方示常式序WordCount源碼
    5.2.2  編程規範
    5.2.3  WordCount案例實操
  5.3  Hadoop的序列化
    5.3.1  序列化概述
    5.3.2  Writable介面
    5.3.3  序列化案例實操
  5.4  MapReduce框架原理之InputFormat數據輸入
    5.4.1  切片與MapTask並行度決定機制
    5.4.2  Job提交流程源碼和FileInputFormat切片源碼詳解
    5.4.3  FileInputFormat切片機制總結
    5.4.4  TextInputFormat
    5.4.5  CombineTextInputFormat切片機制
    5.4.6  CombineTextInputFormat案例實操
  5.5  MapReduce框架原理之shuffle機制
    5.5.1  shuffle機制
    5.5.2  分區
    5.5.3  分區案例實操
    5.5.4  WritableComparable排序
    5.5.5  WritableComparable排序案例實操(全排序)
    5.5.6  WritableComparable排序案例實操(區內排序)
    5.5.7  Combiner合併
    5.5.8  Combiner合併案例實操
  5.6  MapReduce框架原理之OutputFormat數據輸出
    5.6.1  OutputFormat介面的實現類
    5.6.2  自定義OutputFormat類的案例實操
  5.7  MapReduce工作流程
  5.8  Join
    5.8.1  Reduce Join

    5.8.2  Reduce Join案例實操
    5.8.3  Map Join
    5.8.4  Map Join案例實操
  5.9  數據清洗
  5.10  Hadoop中的數據壓縮
    5.10.1  數據壓縮概述
    5.10.2  壓縮參數配置
    5.10.3  壓縮案例實操
  5.11  本章總結
第6章  資源調度器YARN
  6.1  YARN概述
    6.1.1  基本架構
    6.1.2  工作機制
  6.2  YARN的資源調度器和調度演算法
    6.2.1  FIFO調度器
    6.2.2  容量調度器
    6.2.3  公平調度器
  6.3  YARN實操
    6.3.1  常用的命令行命令
    6.3.2  核心參數
    6.3.3  核心參數配置案例
    6.3.4  容量調度器配置案例
    6.3.5  公平調度器配置案例
    6.3.6  Tool介面案例
  6.4  本章總結
第7章  高可用HA
  7.1  ZooKeeper詳解
    7.1.1  ZooKeeper入門
    7.1.2  ZooKeeper安裝
    7.1.3  ZooKeeper的內部原理
    7.1.4  ZooKeeper的命令操作
  7.2  HA概述
    7.2.1  什麼是HA
    7.2.2  HDFS HA的工作機制
  7.3  Hadoop HA集群的搭建
    7.3.1  HDFS HA手動故障轉移
    7.3.2  HDFS HA自動故障轉移
    7.3.3  YARN HA
    7.3.4  Hadoop HA集群規劃
  7.4  本章總結
第8章  生產調優手冊
  8.1  HDFS的核心參數
    8.1.1  NameNode的內存生產配置
    8.1.2  NameNode心跳併發配置
    8.1.3  啟用回收站功能
  8.2  HDFS集群壓測
    8.2.1  測試HDFS的寫性能
    8.2.2  測試HDFS的讀性能
  8.3  HDFS的多目錄配置
    8.3.1  NameNode的多目錄配置

    8.3.2  DataNode的多目錄配置
    8.3.3  集群數據均衡之磁碟之間的數據均衡
  8.4  HDFS集群的擴容及縮容
    8.4.1  添加白名單
    8.4.2  服役新伺服器
    8.4.3  伺服器之間的數據均衡
    8.4.4  黑名單退役伺服器
  8.5  HDFS的存儲優化策略
    8.5.1  糾刪碼
    8.5.2  異構存儲
  8.6  HDFS的故障排除
    8.6.1  NameNode故障處理
    8.6.2  集群安全模式&磁碟數據損壞
    8.6.3  慢磁碟監控
    8.6.4  小文件存檔
  8.7  MapReduce的生產經驗
    8.7.1  MapReduce程序運行較慢的原因
    8.7.2  MapReduce的常用調優參數
    8.7.3  MapReduce的數據傾斜
  8.8  Hadoop的綜合調優
    8.8.1  Hadoop的小文件優化方法
    8.8.2  測試MapReduce的計算性能
    8.8.3  企業開發場景案例
  8.9  本章總結
第9章  源碼解析
  9.1  RPC通信原理
  9.2  NameNode啟動源碼解析
    9.2.1  查看源碼的準備工作
    9.2.2  啟動9870埠服務
    9.2.3  載入鏡像文件和編輯日誌文件
    9.2.4  初始化RPC伺服器端
    9.2.5  檢查資源
    9.2.6  檢測心跳信息並進行超時判斷
    9.2.7  退出安全模式
  9.3  DataNode啟動源碼解析
    9.3.1  查看源碼的準備工作
    9.3.2  初始化DataXceiverServer
    9.3.3  初始化HTTP服務
    9.3.4  初始化RPC伺服器端
    9.3.5  DataNode向NameNode註冊
    9.3.6  DataNode向NameNode發送心跳信息
  9.4  HDFS寫數據流程的源碼解析
    9.4.1  查看源碼的準備工作
    9.4.2  Client向NameNode發起寫請求
    9.4.3  NameNode處理Client的寫請求
    9.4.4  DataStreamer啟動流程
    9.4.5  向DataStreamer的隊列中寫數據
    9.4.6  建立管道之機架感知
    9.4.7  建立管道之socket發送
    9.4.8  建立管道之socket接收

    9.4.9  客戶端接收DataNode的寫數據響應
  9.5  YARN源碼解析
    9.5.1  查看源碼的準備工作
    9.5.2  創建YARN客戶端並提交任務
    9.5.3  啟動MRAppMaster
    9.5.4  調度器任務執行
  9.6  Hadoop的源碼編譯
    9.6.1  前期準備工作
    9.6.2  安裝工具包
    9.6.3  編譯源碼
  9.7  本章總結

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032