幫助中心 | 我的帳號 | 關於我們

Spark大數據分析技術(數據科學與大數據技術Python版微課版面向新工科專業建設電腦系列教材)

  • 作者:編者:曹潔|責編:白立軍//戰曉雷|總主編:張堯學
  • 出版社:清華大學
  • ISBN:9787302625520
  • 出版日期:2023/03/01
  • 裝幀:平裝
  • 頁數:260
人民幣:RMB 59 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書系統介紹Spark大數據處理框架。全書共8章,內容包括大數據技術概述、Spark大數據處理框架、Spark RDD編程、Spark SQL結構化數據處理、HBase分散式資料庫、Spark Streaming流計算、Spark MLlib機器學習、數據可視化。
    本書可作為高等院校電腦科學與技術、信息管理與信息系統、軟體工程、數據科學與大數據技術、人工智慧等專業的大數據課程教材,也可供從事大數據開發和研究工作的工程師和科技工作者參考。

作者介紹
編者:曹潔|責編:白立軍//戰曉雷|總主編:張堯學
    曹潔,博士,畢業於同濟大學電子與信息工程學院電腦軟體與理論專業;主要研究方向是並行分散式處理、雲計算、大數據;主持和參與國家級、省部級項目5項;在《軟體學報》《電腦研究與發展》《通信學報》等國內外核心刊物上發表學術論文12篇;主講「Python語言程序設計」「大數據技術及應用」「雲計算技術」等課程;主編《Python語言程序設計》(微課版),參編《數據挖掘》《Struts2+Hibermate框架技術教程》(第2版)等多部教材。

目錄
第1章  大數據技術概述
  1.1  大數據的基本概念
    1.1.1  大數據的定義
    1.1.2  大數據的特徵
    1.1.3  大數據思維
  1.2  代表性大數據技術
    1.2.1  Hadoop
    1.2.2  Spark
    1.2.3  Flink
  1.3  大數據編程語言
  1.4  在線資源
  1.5  拓展閱讀——三次信息化浪潮的啟示
  1.6  習題
第2章  Spark大數據處理框架
  2.1  Spark概述
    2.1.1  Spark的產生背景
    2.1.2  Spark的優點
    2.1.3  Spark的應用場景
    2.1.4  Spark的生態系統
  2.2  Spark運行機制
    2.2.1  Spark基本概念
    2.2.2  Spark運行架構
  2.3  在VirtualBox上安裝Linux集群
    2.3.1  Master節點的安裝
    2.3.2  虛擬機克隆安裝Slave1節點
  2.4  Hadoop安裝前的準備工作
    2.4.1  創建hadoop用戶和更新APT
    2.4.2  安裝SSH、配置SSH無密碼登錄
    2.4.3  安裝Java環境
    2.4.4  Linux系統下Scala版本的Eclipse的安裝與配置
    2.4.5  Eclipse環境下Java程序開發實例
  2.5  Hadoop的安裝與配置
    2.5.1  下載Hadoop安裝文件
    2.5.2  Hadoop單機模式配置
    2.5.3  Hadoop偽分散式模式配置
    2.5.4  Hadoop分散式模式配置
  2.6  Spark的安裝與配置
    2.6.1  下載Spark安裝文件
    2.6.2  單機模式配置
    2.6.3  偽分散式模式配置
  2.7  使用PySpark編寫Python代碼
  2.8  安裝pip工具和常用的數據分析庫
  2.9  安裝Anaconda和配置Jupyter Notebook
    2.9.1  安裝Anaconda
    2.9.2  配置Jupyter Notebook
    2.9.3  運行Jupyter Notebook
    2.9.4  配置Jupyter Notebook實現和PySpark交互
    2.9.5  為Anaconda安裝擴展庫
  2.10  拓展閱讀——Spark誕生的啟示
  2.11  習題

第3章  Spark RDD編程
  3.1  RDD的創建方式
    3.1.1  使用程序中的數據集創建RDD
    3.1.2  使用文本文件創建RDD
    3.1.3  使用JSON文件創建RDD
    3.1.4  使用CSV文件創建RDD
  3.2  RDD轉換操作
    3.2.1  映射操作
    3.2.2  去重操作
    3.2.3  排序操作
    3.2.4  分組聚合操作
    3.2.5  集合操作
    3.2.6  抽樣操作
    3.2.7  連接操作
    3.2.8  打包操作
    3.2.9  獲取鍵值對RDD的鍵和值集合
    3.2.10  重新分區操作
  3.3  RDD行動操作
    3.3.1  統計操作
    3.3.2  取數據操作
    3.3.3  聚合操作
    3.3.4  迭代操作
    3.3.5  存儲操作
  3.4  RDD之間的依賴關係
    3.4.1  窄依賴
    3.4.2  寬依賴
  3.5  RDD的持久化
  3.6  案例實戰:利用Spark RDD實現詞頻統計
  3.7  實驗1:RDD編程實驗
  3.8  拓展閱讀——中國女排精神
  3.9  習題
第4章  Spark SQL結構化數據處理
  4.1  Spark SQL
    4.1.1  Spark SQL簡介
    4.1.2  DataFrame與Dataset
  4.2  創建DataFrame對象的方法
    4.2.1  使用Parquet文件創建DataFrame對象
    4.2.2  使用JSON文件創建DataFrame對象
    4.2.3  使用SparkSession方式創建DataFrame對象
  4.3  將DataFrame對象保存為不同格式的文件
    4.3.1  通過write.xxx()方法保存DataFrame對象
    4.3.2  通過write.format()方法保存DataFrame對象
    4.3.3  將DataFrame對象轉化成RDD保存到文件中
  4.4  DataFrame的常用操作
    4.4.1  行類操作
    4.4.2  列類操作
    4.4.3  DataFrame的常用屬性
    4.4.4  輸出
    4.4.5  篩選
    4.4.6  排序

    4.4.7  匯總與聚合
    4.4.8  統計
    4.4.9  合併
    4.4.10  連接
    4.4.11  to系列轉換
  4.5  讀寫MySQL資料庫
    4.5.1  安裝並配置MySQL
    4.5.2  讀取MySQL資料庫中的數據
    4.5.3  向MySQL資料庫寫入數據
  4.6  實驗2:Spark SQL編程實驗
  4.7  拓展閱讀——中國晶元之路
  4.8  習題
第5章  HBase分散式資料庫
  5.1  HBase概述
    5.1.1  HBase的技術特點
    5.1.2  HBase與傳統關係資料庫的區別
    5.1.3  HBase與Hadoop中其他組件的關係
  5.2  HBase系統架構和數據訪問流程
    5.2.1  HBase系統架構
    5.2.2  HBase數據訪問流程
  5.3  HBase數據表
    5.3.1  HBase數據表邏輯視圖
    5.3.2  HBase數據表物理視圖
    5.3.3  HBase數據表面向列的存儲
    5.3.4  HBase數據表的查詢方式
    5.3.5  HBase表結構設計
  5.4  HBase的安裝
    5.4.1  下載安裝文件
    5.4.2  配置環境變數
    5.4.3  添加用戶許可權
    5.4.4  查看HBase版本信息
  5.5  HBase的配置
    5.5.1  單機模式配置
    5.5.2  偽分散式模式配置
  5.6  HBase的Shell操作
    5.6.1  基本操作
    5.6.2  創建表
    5.6.3  插入與更新表中的數據
    5.6.4  查看表中的數據
    5.6.5  刪除表中的數據
    5.6.6  表的啟用/禁用
    5.6.7  修改表結構
    5.6.8  刪除HBase表
  5.7  HBase的Java API操作
    5.7.1  HBase資料庫管理API
    5.7.2  HBase資料庫表API
    5.7.3  HBase資料庫表行列API
  5.8  HBase案例實戰
    5.8.1  在Eclipse中創建工程
    5.8.2  添加項目用到的JAR包

    5.8.3  編寫Java應用程序
    5.8.4  編譯運行程序
  5.9  利用Python操作HBase
    5.9.1  HappyBase的安裝
    5.9.2  Connection類
    5.9.3  Table類
  5.10  拓展閱讀——HBase存儲策略的啟示
  5.11  習題
第6章  Spark Streaming流計算
  6.1  流計算概述
    6.1.1  流數據
    6.1.2  流計算處理流程
  6.2  Spark Streaming工作原理
  6.3  Spark Streaming編程模型
    6.3.1  編寫Spark Streaming程序的步驟
    6.3.2  創建StreamingContext對象
  6.4  創建DStream
    6.4.1  創建輸入源為文件流的DStream對象
    6.4.2  定義DStream的輸入數據源為套接字流
    6.4.3  定義DStream的輸入數據源為RDD隊列流
  6.5  DStream操作
    6.5.1  DStream無狀態轉換操作
    6.5.2  DStream有狀態轉換操作
    6.5.3  DStream輸出操作
  6.6  拓展閱讀——Spark Streaming流處理過程的啟示
  6.7  習題
第7章  Spark MLlib機器學習
  7.1  MLlib概述
    7.1.1  機器學習
    7.1.2  PySpark機器學習庫
  7.2  MLlib基本數據類型
    7.2.1  本地向量
    7.2.2  帶標籤的點
    7.2.3  本地矩陣
  7.3  機器學習流水線
    7.3.1  轉換器
    7.3.2  評估器
    7.3.3  流水線
  7.4  基本統計
    7.4.1  匯總統計
    7.4.2  相關分析
    7.4.3  分層抽樣
    7.4.4  生成隨機數
    7.4.5  核密度估計
  7.5  特徵提取、轉換和選擇
    7.5.1  特徵提取
    7.5.2  特徵轉換
    7.5.3  特徵選擇
  7.6  分類演算法
    7.6.1  邏輯二分類回歸分析

    7.6.2  決策樹分類
  7.7  回歸演算法
    7.7.1  循環發電場數據的多元線性回歸分析
    7.7.2  回歸決策樹
    7.7.3  梯度提升回歸樹
  7.8  聚類演算法
    7.8.1  聚類概述
    7.8.2  k均值聚類演算法
  7.9  協同過濾推薦演算法
    7.9.1  協同過濾推薦的原理
    7.9.2  交替最小二乘協同過濾推薦演算法
  7.10  實驗3:Spark機器學習實驗
  7.11  拓展閱讀——工匠精神
  7.12  習題
第8章  數據可視化
  8.1  WordCloud
  8.2  PyeCharts
    8.2.1  繪製柱狀圖
    8.2.2  繪製折線圖
    8.2.3  繪製餅圖
    8.2.4  繪製雷達圖
    8.2.5  繪製漏斗圖
    8.2.6  繪製3D柱狀圖
    8.2.7  繪製詞雲圖
  8.3  Plotly
    8.3.1  繪製折線圖
    8.3.2  繪製柱狀圖
    8.3.3  繪製餅圖
  8.4  拓展閱讀——文化自信
  8.5  習題
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032