幫助中心 | 我的帳號 | 關於我們

Hadoop與Spark入門(數據科學與大數據技術面向新工科專業建設電腦系列教材)

  • 作者:編者:覃雄派//陳躍國|責編:白立軍//楊帆|總主編:張堯學
  • 出版社:清華大學
  • ISBN:9787302613633
  • 出版日期:2022/11/01
  • 裝幀:平裝
  • 頁數:233
人民幣:RMB 59 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書為一本大數據技術的入門書籍,介紹Hadoop大數據平台和Spark大數據平台及相關工具的原理,以及如何進行部署和簡單開發。
    全書包含13章:第1、2章介紹如何為深入學習Hadoop和Spark做環境準備,包括VMware虛擬機的創建和CentOS操作系統安裝。第3?6章介紹Hadoop大數據平台的基本原理,包括HDFS、MapReduce計算模型、HBase資料庫,以及Hive數據倉庫的原理、部署方法和開發技術。第7?11章介紹Spark大數據平台的基本原理,包括彈性分散式數據集、轉換與動作操作、寬依賴與窄依賴、有向無環圖表達的作業及其處理過程等,並且介紹了Spark Core、Spark SQL、Spark MLlib、Spark GraphX的部署和開發技術。最後兩章介紹了Flume(第12章)和Kafka(第13章)兩個工具,Flume用於大量日誌的收集和處理,Kafka用於對大量快速到達的數據進行及時、可靠、暫時的存儲。
    本書適合高等院校高年級本科生以及碩士研究生使用,也可以供非電腦專業學生及相關領域技術人員參考。

作者介紹
編者:覃雄派//陳躍國|責編:白立軍//楊帆|總主編:張堯學

目錄
第1章  VMware 與虛擬機
  1.1  VMware簡介
  1.2  VMware的安裝
  1.3  VMware的網路配置
    1.3.1  VMnet0網卡配置
    1.3.2  VMnet1網卡配置
    1.3.3  VMnet8網卡配置
  1.4  Windows環境下對VMnet8的DNS進行配置
  1.5  利用管理員許可權編輯網卡
  1.6  總結
  1.7  思考題
  參考文獻
第2章  CentOS操作系統安裝
  2.1  新建VMware虛擬機
  2.2  安裝CentOS
  2.3  配置Yum
  2.4  為CentOS安裝圖形用戶界面
  2.5  CentOS的網路配置
    2.5.1  虛擬機的網路配置
    2.5.2  在CentOS操作系統里對網卡進行設置
  2.6  Samba配置
  2.7  配置SSHD
  2.8  重新啟動虛擬機需要執行的命令
  2.9  思考題
第3章  Hadoop入門
  3.1  Hadoop簡介
  3.2  HDFS
    3.2.1  寫文件
    3.2.2  讀文件
    3.2.3  Secondary NameNode介紹
  3.3  MapReduce 工作原理
    3.3.1  MapReduce 執行引擎
    3.3.2  MapReduce 計算模型
      3.3.3Hadoop 1.0  的應用
  3.4  Hadoop 生態系統
  3.5  Hadoop 2
      3.5.1Hadoop 1.0  的優勢和局限
      3.5.2 從Hadoop 1.0  到Hadoop 2.0
    3.5.3  YARN原理
    3.5.4  YARN的優勢
  3.6  思考題
第4章  Hadoop安裝與HDFS、MapReduce實驗
  4.1  安裝JDK
  4.2  新建虛擬機集群
    4.2.1  網路配置小結
    4.2.2  配置各個虛擬機別名
    4.2.3  配置各個虛擬機的/etc/hosts文件
  4.3  無密碼SSH登錄
  4.4  Hadoop 安裝、配置和啟動
    4.4.1  core-site.xml配置文件

    4.4.2  hdfs-site.xml配置文件
    4.4.3  mapred-site.xml配置文件
    4.4.4  yarn-site.xml配置文件
    4.4.5  配置hadoop-env.sh腳本文件
    4.4.6  配置yarn-env.sh腳本文件
    4.4.7  主機配置
  4.5  格式化HDFS
  4.6  啟動Hadoop
  4.7  報告HDFS的基本信息
  4.8  使用日誌
  4.9  Hadoop 管理界面
  4.10  Hadoop測試
    4.10.1  HDFS常用文件操作命令
    4.10.2  測試WordCount程序
  4.11  配置History Server
  4.12  若干問題解決
  4.13  HDFSJava程序分析
  4.14  WordCount程序代碼簡單分析
  4.15  MapReduce Sort
  4.16  MapReduce Java開發環境配置
  4.17  思考題
  參考文獻
第5章  HBase簡介、部署與開發
  5.1  HBase簡介
  5.2  HBase 訪問介面
  5.3  HBase的數據模型
  5.4  HBase系統架構
  5.5  HBase存儲格式
  5.6  在HBase系統上運行MapReduce
  5.7  HBase安裝、配置與運行
  5.8  啟動HBase並且測試
  5.9  使用HBase Shell
  5.10  HBase Java實例分析
  5.11  若干問題解決
  5.12  思考題
  參考文獻
第6章  Hive 數據倉庫
  6.1  Hive簡介
  6.2  Hive數據模型
  6.3  Hive安裝、配置和運行
    6.3.1  使用MySQL進行元信息管理
    6.3.2  安裝和配置Hive
    6.3.3  啟動Hive
  6.4  若干問題解決
  6.5  hiveserver2與 beeline
  6.6  Hive安裝問題
  6.7  HWI服務
  6.8  Metastore 服務
  6.9  Hive的Java開發
  6.10  Tez簡介

    6.10.1 Hadoop 2.0上的互動式查詢引擎Hive on Tez
    6.10.2  把數據處理邏輯建模成一個DAG連接起來的任務
  6.11  Hadoop平台上的列存儲技術
    6.11.1  列存儲的優勢
    6.11.2  Parquet列存儲格式
  6.12  思考題
  參考文獻
第7章  Spark及其生態系統
  7.1  Spark簡介
    7.1.1  Spark軟體架構
    7.1.2  Spark的主要優勢
  7.2  Hadoop的局限和Spark的誕生
  7.3  Spark的特性
  7.4  Spark生態系統
  7.5  RDD及其處理
    7.5.1  DAG、寬依賴與窄依賴
    7.5.2  DAG的調度執行
  7.6  Spark的部署
  7.7  Spark SQL
  7.8  Spark的應用案例
  7.9  總結
  7.10  思考題
  參考文獻
第8章  Spark的安裝、部署與運行
  8.1  Spark的安裝、配置與運行
  8.2  啟動Spark
    8.2.1  啟動spark-sql shell 運行SQL
    8.2.2  啟動pyspark shell 運行SQL
    8.2.3  用pyspark shell 進行數據處理
    8.2.4  啟動scala shell運行 WordCount
    8.2.5  啟動scala shell運行SQL(本地文件)
    8.2.6  啟動scala shell運行SQL(HDFS文件)
    8.2.7  配置和啟動Thrift Server
    8.2.8  錯誤分析
  8.3  在Windows上用Eclipse調試Spark Java程序
  8.4  在Windows 上安裝Maven和配置Eclipse
  8.5  思考題
  參考文獻
第9章  Spark SQL
  9.1  Spark SQL簡介
  9.2  查詢本地文件、HDFS文件以及HDFS Parquet列存儲格式文件
  9.3  內置實例分析與Java開發
    9.3.1  通過SQL Explorer插件存取 Spark SQL
    9.3.2  JDBCJava編程
  9.4  思考題
  參考文獻
第10章  Spark MLlib
  10.1  MLlib簡介
  10.2  啟動平台軟體
  10.3  分類實例

  10.4  聚類實例
  10.5  線性回歸
  10.6  協同過濾推薦
  10.7  思考題
  參考文獻
第11章  Spark GraphX
  11.1  GraphX簡介
  11.2  PageRank
  11.3  思考題
  參考文獻
第12章  Flume入門
  12.1  Flume簡介
  12.2  Flume的特性
  12.3  Flume的系統架構和運行機制
  12.4  Flume的安裝、配置和運行
  12.5  使用netcat完成數據注人的實例
  12.6  以HBase為目標資料庫的實例
  12.7  以Hive為目標資料庫的實例
  12.8  Java開發
  12.9  如何安裝netcat
  12.10  思考題
  參考文獻
第13章  Kafka入門
  13.1  Kafka簡介
    13.1.1  話題和分區
    13.1.2  數據分佈與存儲
    13.1.3  代理
    13.1.4  生產者
    13.1.5  消費者
    13.1.6  消息的順序
    13.1.7  Kafka的應用場景
    13.1.8  小結
  13.2  Zookeeper與Kafka
  13.3  Kafka的流數據處理組件Kafka Streams
  13.4  Kafka在系統中的位置
  13.5  Kafka的安裝、配置和運行
    13.5.1  單Broker部署
    13.5.2  多Broker部署
    13.5.3  測試容錯性
  13.6  安裝問題
  13.7  Kafka的Java編程
  13.8  Kafka的綜合實例
  13.9  Kafka與Flume的配合
  13.10  流處理與批處理的結合
  13.11  思考題
  參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032