幫助中心 | 我的帳號 | 關於我們

企業級大數據項目實戰(用戶搜索行為分析系統從0到1)

  • 作者:張偉洋|責編:王金柱
  • 出版社:清華大學
  • ISBN:9787302630906
  • 出版日期:2023/06/01
  • 裝幀:平裝
  • 頁數:264
人民幣:RMB 89 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書基於真實業務場景,以項目導向為主線,從0到1全面介紹「企業級大數據用戶搜索行為分析系統」的搭建過程。全書共6章,第1章講解項目需求與架構設計,詳細闡述項目數據流與系統架構;第2章介紹大數據項目開發環境配置,手把手帶領讀者配置操作系統、Hadoop集群與相關工具,為後續項目實施打下基礎;第3?5章逐步實現項目需求,第3章講解「用戶行為數據採集模塊」的開發,第4章講解「用戶行為數據離線分析模塊」的開發,第5章講解「用戶行為數據實時分析模塊」的開發,這3章採用項目導向的方式,讓讀者參與實際開發過程;第6章講解「數據可視化模塊」的開發,並整合各模塊,測試數據流轉,完成項目的開發與部署。
    本書項目源自真實業務場景,目的是使讀者通過實際項目來理解理論知識並提高實踐能力。本書適合缺乏大數據項目經驗的從業者閱讀,也適合作為高等院校大數據專業的教學用書。

作者介紹
張偉洋|責編:王金柱
    張偉洋,大數據領域資深專家,擁有多年頂尖互聯網公司軟體研發經驗,曾在互聯網旅遊公司任軟體研發事業部經理。目前從事大數據項目講師工作,先後多次給各大高校舉行大數據專題講座,對Hadoop及周邊大數據框架ZooKeeper、Hive、HBase、Storm、Spark、Flink等有著深入的研究。高等院校雲計算與大數據專業課改教材《雲計算與大數據概論》《大數據開發與應用》的主要編寫者。

目錄
第1章  項目需求描述
  1.1  項目需求
  1.2  項目數據流設計
  1.3  項目架構設計
  1.4  集群角色規劃
  1.5  項目開發環境介紹
第2章  項目開發環境準備
  2.1  VMware中安裝CentOS 7操作系統
    2.1.1  下載CentOS 7鏡像文件
    2.1.2  VMware新建虛擬機
    2.1.3  安裝CentOS 7
    2.1.4  啟動CentOS 7
    2.1.5  打開Shell終端
  2.2  Linux系統環境配置
    2.2.1  新建用戶
    2.2.2  修改用戶許可權
    2.2.3  關閉防火牆
    2.2.4  設置固定IP
    2.2.5  修改主機名
    2.2.6  新建資源目錄
  2.3  安裝JDK
  2.4  克隆虛擬機
  2.5  配置主機IP映射
  2.6  配置集群各節點SSH無密鑰登錄
    2.6.1  SSH無密鑰登錄原理
    2.6.2  SSH無密鑰登錄操作步驟
  2.7  搭建Hadoop分散式集群
    2.7.1  搭建思路
    2.7.2  搭建Hadoop集群
  2.8  動手練習
第3章  用戶行為數據採集模塊開發
  3.1  用戶行為數據來源
    3.1.1  構建測試數據
    3.1.2  數據預處理
  3.2  使用Flume採集用戶行為數據
    3.2.1  Flume採集架構
    3.2.2  Flume組件
    3.2.3  Flume的安裝與測試
    3.2.4  配置Flume多節點數據採集
  3.3  使用Kafka中轉用戶行為數據
    3.3.1  ZooKeeper集群的搭建
    3.3.2  ZooKeeper集群的啟動與連接
    3.3.3  Kafka集群的搭建
    3.3.4  Kafka集群的啟動與查看
    3.3.5  Kafka主題操作
  3.4  Flume數據實時寫入Kafka
    3.4.1  數據流架構
    3.4.2  配置centos03節點的Flume
    3.4.3  啟動Flume
    3.4.4  測試數據流轉

  3.5  使用HBase存儲用戶行為數據
    3.5.1  HBase集群的架構
    3.5.2  HBase集群的搭建
    3.5.3  HBase集群的啟動、查看與停止
    3.5.4  測試HBase數據表操作
    3.5.5  創建HBase用戶行為表結構
  3.6  Flume數據實時寫入HBase
    3.6.1  數據流架構
    3.6.2  配置centos03節點的Flume
    3.6.3  Flume寫入HBase原理分析
    3.6.4  用戶行為日誌匹配測試
    3.6.5  啟動Flume
    3.6.6  測試數據流轉
  3.7  動手練習
第4章  用戶行為數據離線分析模塊開發
  4.1  Hive安裝
    4.1.1  Hive內嵌模式安裝
    4.1.2  Hive本地模式安裝
    4.1.3  Hive遠程模式安裝
  4.2  Hive資料庫操作
    4.2.1  創建資料庫
    4.2.2  修改資料庫
    4.2.3  選擇資料庫
    4.2.4  刪除資料庫
    4.2.5  顯示資料庫
  4.3  Hive表操作
    4.3.1  內部表操作
    4.3.2  外部表操作
  4.4  Hive離線分析用戶行為數據
    4.4.1  創建用戶行為表並導入數據
    4.4.2  統計前10個訪問量最高的用戶ID及訪問數量
    4.4.3  分析鏈接排名與用戶點擊的相關性
    4.4.4  分析一天中上網用戶最多的時間段
    4.4.5  查詢用戶訪問最多的前10個網站域名
  4.5  Hive集成HBase分析用戶行為數據
    4.5.1  Hive集成HBase的原理
    4.5.2  Hive集成HBase的配置
    4.5.3  Hive分析HBase用戶行為表數據
  4.6  Spark集群的搭建
    4.6.1  應用提交方式
    4.6.2  搭建集群
  4.7  Spark應用程序的提交
    4.7.1  spark-submit工具的使用
    4.7.2  執行Spark圓周率程序
    4.7.3  SparkShell的啟動
  4.8  SparkRDD運算元運算
    4.8.1  SparkRDD特性
    4.8.2  創建RDD
    4.8.3  轉換運算元運算
    4.8.4  行動運算元運算

  4.9  使用IntelliJIDEA創建Scala項目
    4.9.1  在IDEA中安裝Scala插件
    4.9.2  創建Scala項目
  4.10  SparkWordCount項目的創建與運行
    4.10.1  創建Maven管理的Spark項目
    4.10.2  編寫WordCount程序
    4.10.3  提交WordCount程序到集群
    4.10.4  查看SparkWebUI
    4.10.5  查看程序執行結果
  4.11  Spark RDD讀寫HBase
    4.11.1  讀取HBase表數據
    4.11.2  寫入HBase表數據
  4.12  使用Spark SQL實現單詞計數
    4.12.1  Spark SQL編程特性
    4.12.2  Spark SQL的基本使用
    4.12.3  Spark SQL實現單詞計數
  4.13  Spark SQL數據源操作
    4.13.1  基本操作
    4.13.2  Parquet文件
    4.13.3  JSON數據集
    4.13.4  Hive表
    4.13.5  JDBC
  4.14  Spark SQL與Hive整合分析
    4.14.1  整合Hive
    4.14.2  操作Hive
  4.15  SparkSQL整合MySQL存儲分析結果
    4.15.1  MySQL數據準備
    4.15.2  讀取MySQL表數據
    4.15.3  寫入結果數據到MySQL表
  4.16  SparkSQL熱點搜索詞統計
    4.16.1  開窗函數的使用
    4.16.2  熱點搜索詞統計實現
  4.17  SparkSQL搜索引擎每日UV統計
    4.17.1  內置函數的使用
    4.17.2  搜索引擎每日UV統計實現
  4.18  動手練習
第5章  用戶行為數據實時分析模塊開發
  5.1  Spark Streaming程序編寫
    5.1.1  Spark Streaming工作原理
    5.1.2  輸入DStream和Receiver
    5.1.3  第一個Spark Streaming程序
  5.2  Spark Streaming數據源
    5.2.1  基本數據源
    5.2.2  高級數據源
    5.2.3  自定義數據源
  5.3  DStream操作
    5.3.1  無狀態操作
    5.3.2  狀態操作
    5.3.3  窗口操作
    5.3.4  輸出操作

    5.3.5  緩存及持久化
    5.3.6  檢查點
  5.4  Spark Streaming按批次累加單詞數量
    5.4.1  編寫應用程序
    5.4.2  運行應用程序
    5.4.3  查看Spark WebUI
  5.5  Spark Streaming整合Kafka計算實時單詞數量
    5.5.1  整合原理
    5.5.2  編寫應用程序
    5.5.3  運行應用程序
  5.6  Structured Streaming快速實時單詞計數
  5.7  Structured Streaming編程模型
  5.8  Structured Streaming查詢輸出
    5.8.1  輸出模式
    5.8.2  外部存儲系統與檢查點
  5.9  Structured Streaming窗口操作
    5.9.1  事件時間
    5.9.2  窗口聚合單詞計數
    5.9.3  延遲數據和水印
  5.10  Structured Streaming消費Kafka數據實現單詞計數
  5.11  Structured Streaming輸出計算結果到MySQL
    5.11.1  MySQL建庫、建表
    5.11.2  Structured Streaming應用程序的編寫
    5.11.3  打包與提交Structured Streaming應用程序
  5.12  動手練習
第6章  數據可視化模塊開發
  6.1  IDEA搭建基於SpringBoot的Web項目
    6.1.1  創建Maven項目
    6.1.2  項目集成SpringBoot
  6.2  WebSocket數據實時推送
    6.2.1  WebSocket推送原理
    6.2.2  項目集成WebSocket
    6.2.3  創建JDBC查詢工具類
    6.2.4  創建WebSocket服務處理類
  6.3  使用ECharts進行前端視圖展示
  6.4  多框架整合實時分析用戶行為日誌數據流
    6.4.1  項目實時處理工作流程
    6.4.2  模擬實時產生用戶行為數據
    6.4.3  集群數據流轉
  6.5  動手練習

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032