幫助中心 | 我的帳號 | 關於我們

大數據處理技術基礎與應用(Hadoop+Spark)/大數據技術與應用叢書

  • 作者:編者:許桂秋//孫海民//胡貴恆|責編:張曉芬
  • 出版社:人民郵電
  • ISBN:9787115637680
  • 出版日期:2024/02/01
  • 裝幀:平裝
  • 頁數:237
人民幣:RMB 69.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書是一本介紹大數據處理技術的專業圖書,力求提高讀者對大數據處理的認知水平和動手能力。本書首先介紹大數據技術的相關概念和發展歷程,從實踐的角度介紹Hadoop和Spark的安裝部署、編程基礎和使用方法;然後結合具體案例,重點介紹Spark RDD、Spark SQL、Spark Streaming、Spark Graph Frame等的應用思路和方法,並通過具體代碼,讓讀者更好地感受大數據處理技術的效果。
    本書既可以作為高等院校電腦、大數據等相關專業的教材,也可以作為大數據技術相關從業人員的參考書,還可作為零基礎人員學習Hadoop和Spark技術的入門圖書。

作者介紹
編者:許桂秋//孫海民//胡貴恆|責編:張曉芬

目錄
第1章  大數據技術概述
  1.1  大數據技術簡介
    1.1.1  大數據的發展
    1.1.2  大數據的流程
  1.2  大數據的主流軟體
    1.2.1  Hadoop
    1.2.2  Spark
    1.2.3  Flink
    1.2.4  Hadoop與Spark對比
  1.3  大數據的主流編程語言
    1.3.1  Python語言
    1.3.2  Java語言
    1.3.3  Scala語言
  1.4  本章小結
第2章  Hadoop部署安裝與使用
  2.1  Linux基本操作
    2.1.1  Linux簡介
    2.1.2  新建與刪除用戶
    2.1.3  目錄許可權的查看與修改
    2.1.4  Linux的常用命令
    2.1.5  任務實現
  2.2  搭建Hadoop完全分散式集群
    2.2.1  關閉防火牆
    2.2.2  安裝SSH
    2.2.3  安裝Xshell及Xftp(可選)
    2.2.4  安裝Java
    2.2.5  安裝Hadoop
    2.2.6  克隆主機
    2.2.7  安裝完全分散式模式
  2.3  查看Hadoop集群的基本信息
    2.3.1  查詢存儲系統信息
    2.3.2  查詢計算資源信息
  2.4  本章小結
第3章  HDFS基本操作
  3.1  HadoopShell命令操作HDFS
    3.1.1  HDFS簡介
    3.1.2  HDFSShell命令簡介
    3.1.3  目錄操作
    3.1.4  文件操作
    3.1.5  利用Web界面管理HDFS
    3.1.6  任務實現
  3.2  Java操作HDFS
    3.2.1  在Eclipse中創建HDFS交互Java項目
    3.2.2  在Java項目中編寫Java應用程序
    3.2.3  編譯運行應用程序與打包文件
    3.2.4  任務實現
    3.2.5  文件常用操作的參考代碼
  3.3  本章小結
第4章  MapReduce基本原理與編程實現
  4.1  MapReduce基本原理

    4.1.1  MapReduce簡介
    4.1.2  MapReduce編程核心思想
    4.1.3  MapReduce編程規範
    4.1.4  MapReduce的輸入格式
    4.1.5  MapReduce的輸出格式
    4.1.6  分區
    4.1.7  合併
  4.2  編程實現——按訪問次數排序
    4.2.1  編程思路與處理邏輯
    4.2.2  核心模塊代碼
    4.2.3  任務實現
  4.3  本章小結
第5章  Hive部署與編程基礎
  5.1  搭建偽分散式Hive
    5.1.1  Hive概述
    5.1.2  Hive安裝和配置
  5.2  Hive基本操作
    5.2.1  資料庫基本操作
    5.2.2  數據表基本操作
    5.2.3  數據基本操作
  5.3  編程實現——部門工資統計
  5.4  本章小結
第6章  Spark部署與編程基礎
  6.1  Spark的運行原理
    6.1.1  集群架構
    6.1.2  運行流程
    6.1.3  核心數據集RDD
    6.1.4  核心原理
  6.2  Scala安裝與使用
    6.2.1  Scala語言概述
    6.2.2  Scala特性
    6.2.3  環境設置與安裝
  6.3  Spark安裝與使用
    6.3.1  環境搭建前的準備
    6.3.2  Spark的安裝與配置
    6.3.3  在PySpark中運行代碼
    6.3.4  編程實現——Spark獨立應用程序
  6.4  本章小結
第7章  SparkRDD:彈性分散式數據集
  7.1  RDD概述
  7.2  RDD編程
    7.2.1  RDD編程基礎
    7.2.2  鍵值對RDD
    7.2.3  數據讀寫操作
  7.3  編程實現
    7.3.1  任務1:取出排名前五的訂單支付金額
    7.3.2  任務2:文件排序
    7.3.3  任務3:二次排序
  7.4  本章小結
第8章  SparkSQL:結構化數據文件處理

  8.1  SparkSQL概述
    8.1.1  SparkSQL簡介
    8.1.2  SparkSQLCLI配置
    8.1.3  SparkSQL與Shell交互
  8.2  DataFrame基礎操作
    8.2.1  創建DataFrame對象
    8.2.2  DataFrame查看數據
    8.2.3  DataFrame查詢操作
    8.2.4  DataFrame輸出操作
  8.3  SparkSQL與MySQL的交互
  8.4  本章小結
第9章  SparkStreaming:實時計算框架
  9.1  SparkStreaming概述
    9.1.1  SparkStreaming應用場景
    9.1.2  流計算概述
    9.1.3  SparkStreaming特性分析
  9.2  DStream編程模型基礎
    9.2.1  DStream概述
    9.2.2  基本輸入源
    9.2.3  轉換操作
    9.2.4  輸出操作
  9.3  編程實現——流數據過濾與分析
  9.4  本章小結
第10章  SparkGraphFrames:圖計算
  10.1  圖計算概述
    10.1.1  圖的基本概念
    10.1.2  圖計算的應用
    10.1.3  GraphFrames簡介
  10.2  GraphFrames編程模型基礎
    10.2.1  創建實例化圖
    10.2.2  視圖和圖操作
    10.2.3  保存和載入圖
  10.3  編程實現——基於GraphFrames的網頁排名
    10.3.1  準備數據集
    10.3.2  GraphFrames實現演算法
    10.3.3  使用PageRank進行網頁排名
  10.4  本章小結
第11章  大數據生態常用工具介紹
  11.1  Flume的安裝與使用
    11.1.1  安裝及配置Flume
    11.1.2  實例分析
  11.2  Kafka的安裝與使用
    11.2.1  Kafka相關概念
    11.2.2  安裝Kafka
    11.2.3  實例分析
  11.3  Sqoop的安裝與使用
    11.3.1  安裝及配置Sqoop
    11.3.2  添加MySQL驅動程序
    11.3.3  測試Sqoop與MySQL的連接
  11.4  編程實現——編寫Spark程序使用Kafka數據源

    11.4.1  Kafka準備工作
    11.4.2  Spark準備工作
    11.4.3  編寫代碼
  11.5  本章小結

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032