幫助中心 | 我的帳號 | 關於我們

Python大數據處理庫PySpark實戰

  • 作者:汪明|責編:夏毓彥
  • 出版社:清華大學
  • ISBN:9787302575085
  • 出版日期:2021/03/01
  • 裝幀:平裝
  • 頁數:310
人民幣:RMB 79 元      售價:
放入購物車
加入收藏夾

內容大鋼
    我國提出新基建概念,要加快大數據中心、人工智慧等新型基礎設施的建設進度,這無疑需要更多的大數據人才。PySpark可以對大數據進行分散式處理,降低大數據學習門檻,本書正是一本PySpark入門教材,適合有一定Python基礎的讀者學習使用。
    本書分為7章,第1章介紹大數據的基本概念、常用的大數據分析工具;第2章介紹Spark作為大數據處理的特點和演算法;第3章介紹Spark實戰環境的搭建,涉及Windows和Linux操作系統;第4章介紹如何靈活應用PySpark對數據進行操作;第5章介紹PySpark ETL處理,涉及PySpark讀取數據、對數據進行統計分析等數據處理相關內容;第6章介紹PySpark如何利用MLlib庫進行分散式機器學習(Titanic倖存者預測);第7章介紹一個PySpark和Kafka結合的實時項目。
    本書內容全面、示例豐富,可作為廣大PySpark入門讀者必備的參考書,同時能作為大中專院校師生的教學參考書,也可作為高等院校電腦及相關專業的大數據技術教材使用。

作者介紹
汪明|責編:夏毓彥
    汪明,碩士,畢業於中國礦業大學,徐州軟體協會副理事長,某創業公司合夥人。從事軟體行業十余年,發表論文數十篇。著有圖書《TypeScript實戰》《Go併發編程實戰》。

目錄
第1章  大數據時代
  1.1  什麼是大數據
    1.1.1  大數據的特點
    1.1.2  大數據的發展趨勢
  1.2  大數據下的分析工具
    1.2.1  Hadoop
    1.2.2  Hive
    1.2.3  HBase
    1.2.4  Apache Phoenix
    1.2.5  Apache Drill
    1.2.6  Apache Hudi
    1.2.7  Apache Kylin
    1.2.8  Apache Presto
    1.2.9  ClickHouse
    1.2.10  Apache Spark
    1.2.11  Apache Flink
    1.2.12  Apache Storm
    1.2.13  Apache Druid
    1.2.14  Apache Kafka
    1.2.15  TensorFlow
    1.2.16  PyTorch
    1.2.17  Apache Superset
    1.2.18  Elasticsearch
    1.2.19  Jupyter Notebook
    1.2.20  Apache Zeppelin
  1.3  小結
第2章  大數據的瑞士軍刀——Spark
  2.1  Hadoop與生態系統
    2.1.1  Hadoop概述
    2.1.2  HDFS體系結構
    2.1.3  Hadoop生態系統
  2.2  Spark與Hadoop
    2.2.1  Apache Spark概述
    2.2.2  Spark和Hadoop比較
  2.3  Spark核心概念
    2.3.1  Spark軟體棧
    2.3.2  Spark運行架構
    2.3.3  Spark部署模式
  2.4  Spark基本操作
  2.5  SQL in Spark
  2.6  Spark與機器學習
    2.6.1  決策樹演算法
    2.6.2  貝葉斯演算法
    2.6.3  支持向量機演算法
    2.6.4  隨機森林演算法
    2.6.5  人工神經網路演算法
    2.6.6  關聯規則演算法
    2.6.7  線性回歸演算法
    2.6.8  KNN演算法
    2.6.9  K-Means演算法

  2.7  小結
第3章  Spark實戰環境設定
  3.1  建立Spark環境前提
    3.1.1  CentOS 7安裝
    3.1.2  FinalShell安裝
    3.1.3  PuTTY安裝
    3.1.4  JDK安裝
    3.1.5  Python安裝
    3.1.6  Visual Studio Code安裝
    3.1.7  PyCharm安裝
  3.2  一分鐘建立Spark環境
    3.2.1  Linux搭建Spark環境
    3.2.2  Windows搭建Spark環境
  3.3  建立Hadoop集群
    3.3.1  CentOS配置
    3.3.2  Hadoop偽分佈模式安裝
    3.3.3  Hadoop完全分佈模式安裝
  3.4  安裝與配置Spark集群
  3.5  安裝與配置Hive
    3.5.1  Hive安裝
    3.5.2  Hive與Spark集成
  3.6  打造互動式Spark環境
    3.6.1  Spark Shell
    3.6.2  PySpark
    3.6.3  Jupyter Notebook安裝
  3.7  小結
第4章  活用PySpark
  4.1  Python 語法複習
    4.1.1  Python基礎語法
    4.1.2  Python變數類型
    4.1.3  Python運算符
    4.1.4  Python控制語句
    4.1.5  Python函數
    4.1.6  Python模塊和包
    4.1.7  Python面向對象
    4.1.8  Python異常處理
    4.1.9  Python JSON處理
    4.1.10  Python日期處理
  4.2  用PySpark建立第一個Spark RDD
    4.2.1  PySpark Shell 建立RDD
    4.2.2  VSCode編程建立RDD
    4.2.3  Jupyter 編程建立RDD
  4.3  RDD的操作與觀察
    4.3.1  first操作
    4.3.2  max操作
    4.3.3  sum操作
    4.3.4  take操作
    4.3.5  top操作
    4.3.6  count操作
    4.3.7  collect操作

    4.3.8  collectAsMap操作
    4.3.9  countByKey操作
    4.3.10  countByValue操作
    4.3.11  glom操作
    4.3.12  coalesce操作
    4.3.13  combineByKey操作
    4.3.14  distinct操作
    4.3.15  filter操作
    4.3.16  flatMap操作
    4.3.17  flatMapValues操作
    4.3.18  fold操作
    4.3.19  foldByKey操作
    4.3.20  foreach操作
    4.3.21  foreachPartition操作
    4.3.22  map操作
    4.3.23  mapPartitions操作
    4.3.24  mapPartitionsWithIndex操作
    4.3.25  mapValues操作
    4.3.26  groupBy操作
    4.3.27  groupByKey操作
    4.3.28  keyBy操作
    4.3.29  keys操作
    4.3.30  zip操作
    4.3.31  zipWithIndex操作
    4.3.32  values操作
    4.3.33  union操作
    4.3.34  takeOrdered操作
    4.3.35  takeSample操作
    4.3.36  subtract操作
    4.3.37  subtractByKey操作
    4.3.38  stats操作
    4.3.39  sortBy操作
    4.3.40  sortByKey操作
    4.3.41  sample操作
    4.3.42  repartition操作
    4.3.43  reduce操作
    4.3.44  reduceByKey操作
    4.3.45  randomSplit操作
    4.3.46  lookup操作
    4.3.47  join操作
    4.3.48  intersection操作
    4.3.49  fullOuterJoin操作
    4.3.50  leftOuterJoin與rightOuterJoin操作
    4.3.51  aggregate操作
    4.3.52  aggregateByKey操作
    4.3.53  cartesian操作
    4.3.54  cache操作
    4.3.55  saveAsTextFile操作
  4.4  共享變數
    4.4.1  廣播變數

    4.4.2  累加器
  4.5  DataFrames與Spark SQL
    4.5.1  DataFrame建立
    4.5.2  Spark SQL基本用法
    4.5.3  DataFrame基本操作
  4.6  撰寫第一個Spark程序
  4.7  提交你的 Spark 程序
  4.8  小結
第5章  PySpark ETL 實戰
  5.1  認識資料單元格式
  5.2  觀察資料
  5.3  選擇、篩選與聚合
  5.4  存儲數據
  5.5  Spark存儲數據到SQL Server
  5.6  小結
第6章  PySpark分散式機器學習
  6.1  認識數據格式
  6.2  描述統計
  6.3  資料清理與變形
  6.4  認識Pipeline
  6.5  邏輯回歸原理與應用
    6.5.1  邏輯回歸基本原理
    6.5.2  邏輯回歸應用示例:Titanic倖存者預測
  6.6  決策樹原理與應用
    6.6.1  決策樹基本原理
    6.6.2  決策樹應用示例:Titanic倖存者預測
  6.7  小結
第7章  實戰:PySpark Kafka實時項目
  7.1  Kafka和Flask環境搭建
  7.2  代碼實現
  7.3  小結

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032