幫助中心 | 我的帳號 | 關於我們

Python大數據分析從入門到精通

  • 作者:蘭一傑|責編:張雲靜//吳秀川
  • 出版社:北京大學
  • ISBN:9787301313558
  • 出版日期:2020/07/01
  • 裝幀:平裝
  • 頁數:309
人民幣:RMB 79 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書結合Python在數據分析領域的特點,介紹如何在數據平台上集成使用Python。本書內容分為3大部分。第1部分(第1?3章)為搭建開發環境和導入測試數據;第2部分(第4~12章)為Python對HDFS、Hive、Pig、HBase、Spark的操作,主要是對常用API的說明;第3部分(第13?16章)是在前面章節的基礎上,介紹如何進行數據的分析、挖掘、可視化等內容。
    本書不僅闡述了Python在大數據平台上的應用技巧,而且關於大數據平台管理和操作的介紹說明貫穿全書,因此對於希望學習大數據知識的讀者,本書同樣非常適合。

作者介紹
蘭一傑|責編:張雲靜//吳秀川
    蘭一傑,資深軟體工程師、項目經理,對Python大數據、人工智慧、深度學習等有深入研究並能靈活整合運用。多年從事通過Python實施自動化運維、主數據項目、大數據分析項目的開發工作,涉及國內各大房地產企業、金融企業、政府機關燈領域。

目錄
第一章  為什麼選擇用Python
  1.1  易於使用
  1.2  兼容Hadoop
  1.3  可擴展和靈活性
  1.4  良好的社區支持和開發環境
  1.5  在數據分析領域的優勢
  1.6  總結
第二章  大數據開發環境的搭建
  2.1  安裝大數據集成環境HDP
  2.2  安裝Spark環境(Windows)
  2.3  自行安裝大數據開發環境
  2.4  總結
第三章  構建分析數據
  3.1  分析數據的說明
  3.2  導入數據到HDP SandBox中
  3.3  導入自安裝的環境中使用
  3.4  導入Windows的Spark中
  3.5  導入 Northwind 資料庫
  3.6  總結
第四章  Python對Hadoop的操作
  4.1  Snakebite的說明
  4.2  HDFS命令說明
  4.3  Snakebite Client類的使用
  4.4  Snakebite CLI的使用
  4.5  總結
第五章  Python對Hive的操作
  5.1  Hive說明
  5.2  使用PyHive
  5.3  使用Python編寫Hive UDF
  5.4  Impyla的使用
  5.5  Hive SQL調優方法
  5.6  總結
第六章  Python對HBase的操作
  6.1  HBase說明
  6.2  HBase Shell命令
  6.3  HappyBase說明
  6.4  HappyBase的使用
  6.5  總結
第七章  Python集成到Pig
  7.1  Pig說明
  7.2  Pig Latin的使用
  7.3  Python Pig的整合
  7.4  總結
第八章  PySpark Shell應用
  8.1  操作步驟
  8.2  應用對象
  8.3  Spark核心模塊
  8.4  Spark Shell的使用
  8.5  PySpark Shell的使用
  8.6  總結

第九章  PySpark對RDD操作
  9.1  Spark RDD說明
  9.2  RDD API說明
  9.3  在API函數中使用Lambda表達式
  9.4  從HDFS中讀取數據並以SequenceFile格式存儲
  9.5  讀取CSV文件處理並存儲
  9.6  讀取Json文件處理
  9.7  通過RDD計算圓周率
  9.8  查看RDD計算的狀態
  9.9  總結
第十章  PySpark對DataFrame的操作
  10.1  Spark DataFrame說明
  10.2  DataFrame API總述
  10.3  DataFrame數據結構API
  10.4  DataFrame數據處理API
  10.5  Postgresql和DataFrame
  10.6  CSV和DataFrame
  10.7  Json和DataFrame
  10.8  Numpy、Pandas和DataFrame
  10.9  RDD和DataFrame
  10.10  HDFS和DataFrame
  10.11  Hive和DataFrame
  10.12  HBase和DataFrame
  10.13  總結
第十一章  PySpark對Streaming的操作
  11.1  Spark Streaming說明
  11.2  Spark Streaming API
  11.3  網路數據流
  11.4  文件數據流
  11.5  Kafka數據流
  11.6  Flume數據流
  11.7  QueueStream數據流
  11.8  使用StreamingListener監聽數據流
  11.9  總結
第十二章  PySpark SQL
  12.1  關於Spark SQL
  12.2  Spark SQL相關API
  12.3  Spark SQL使用步驟
  12.4  Postgresql和Spark SQL
  12.5  CSV和Spark SQL
  12.6  Json和Spark SQL
  12.7  HDFS和Spark SQL
  12.8  Hive和Spark SQL
  12.9  UDF和Spark SQL
  12.10  Streaming和Spark SQL
  12.11  Spark SQL優化
  12.12  總結
第十三章  分析方法及構架的說明
  13.1  統計的概念和數據可視化
  13.2  數據分析方法的探討

  13.3  開發構架說明
  13.4  總結整合說明
第十四章  集成分析
  14.1  SQL窗口函數的說明
  14.2  Hive SQL分析
  14.3  Spark SQL分析
  14.4  HBase SQL分析
  14.5  對接Numpy、Pandas的分析
  14.6  對接Blaze分析
  14.7  總結
第十五章  數據挖掘
  15.1  關於機器學習
  15.2  PySpark機器學習包
  15.3  特徵的抽取、轉換和選擇
  15.4  PySpark機器學習包的使用
  15.5  集成TensorFlow
  15.6  集成scikit-learn
  15.7  總結
第十六章  數據可視化
  16.1  標籤雲
  16.2  Zeppelin的使用
  16.3  Mathplotlib的使用
  16.4  Superset的使用
  16.5  總結

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032