大數據技術原理與應用(概念存儲處理分析與應用第4版)/大數據創新人才培養系列

作者：編者:林子雨|責編:孫澍
出版社：人民郵電
ISBN：9787115641816

出版日期：2024/08/01
裝幀：平裝
頁數：298

人民幣：RMB 65 元售價：元

內容大鋼

本書系統介紹大數據的相關知識，分為大數據基礎篇、大數據存儲與管理篇、大數據處理與分析篇、大數據應用篇。本書內容包括大數據概述、大數據處理架構Hadoop、分散式文件系統HDFS、分散式資料庫HBase、NoSQL資料庫、雲資料庫、MapReduce、Hadoop再探討、數據倉庫Hive、Spark、流計算、Flink、圖計算、大數據應用等。本書在與HDFS、HBase、MapReduce、Hive、Spark和Flink等相關的章中安排了入門級的實驗，以幫助讀者更好地學習和掌握大數據的關鍵技術。
本書可以作為高等院校大數據、電腦、信息管理等相關專業的大數據課程教材，也可供相關技術人員參考。

作者介紹

編者:林子雨|責編:孫澍
林子雨（1978—），男，博士，廈門大學電腦科學系助理教授，廈門大學雲計算與大數據研究中心創始成員，廈門大學資料庫實驗室負責人，中國電腦學會資料庫專委會委員，中國電腦學會信息系統專委會委員。于2001年獲得福州大學水利水電專業學士學位，2005年獲得廈門大學電腦專業碩士學位，2009年獲得北京大學電腦專業博士學位。中國高校首個「數字教師」提出者和建設者，2009年至今，「數字教師」大平台累計向網路免費發布超過100萬字高價值的教學和科研資料，累計網路訪問量超過100萬次。主要研究方向為資料庫、數據倉庫、數據挖掘、大數據和雲計算，發表期刊和會議學術論文多篇，並作為課題組負責人承擔了國家自然科學基金和福建省自然科學基金項目。曾作為志願者翻譯了Google Spanner、BigTable和《Architecture of a Database System》等大量英文學術資料，與廣大網友分享，深受歡迎。2013年在廈門大學開設大數據課程，並因在教學領域的突出貢獻和學生的認可，成為2013年度廈門大學教學類獎教金獲得者。

第1篇  大數據基礎
  第1章  大數據概述
    1.1  大數據時代
      1.1.1  第三次信息化浪潮
      1.1.2  信息科技為大數據時代提供技術支撐
      1.1.3  數據產生方式的變革促成大數據時代的到來
      1.1.4  大數據的發展歷程
    1.2  什麼是大數據
      1.2.1  數據量大
      1.2.2  數據類型繁多
      1.2.3  處理速度快
      1.2.4  價值密度低
    1.3  大數據的影響
      1.3.1  大數據對科學研究的影響
      1.3.2  大數據對思維方式的影響
      1.3.3  大數據對社會發展的影響
      1.3.4  大數據對就業市場的影響
      1.3.5  大數據對人才培養的影響
    1.4  大數據的應用
      1.4.1  大數據在各個領域的應用
      1.4.2  大數據應用的3個層次
    1.5  大數據關鍵技術
    1.6  大數據計算模式
      1.6.1  批處理計算
      1.6.2  流計算
      1.6.3  圖計算
      1.6.4  查詢分析計算
    1.7  大數據產業
    1.8  大數據與雲計算、物聯網
      1.8.1  雲計算
      1.8.2  物聯網
      1.8.3  大數據與雲計算、物聯網的關係
    1.9  本章小結
    1.10  習題
  第2章  大數據處理架構Hadoop
    2.1  Hadoop概述
      2.1.1  Hadoop簡介
      2.1.2  Hadoop的發展簡史
      2.1.3  Hadoop的特性
      2.1.4  Hadoop的應用現狀
      2.1.5  Hadoop的版本
    2.2  Hadoop生態系統
      2.2.1  HDFS
      2.2.2  HBase
      2.2.3  MapReduce
      2.2.4  Hive
      2.2.5  Pig
      2.2.6  Mahout
      2.2.7  ZooKeeper
      2.2.8  Flume

      2.2.9  Kafka
      2.2.10  Ambari
    2.3  Hadoop的安裝與使用
      2.3.1  創建hadoop用戶
      2.3.2  更新apt和安裝Vim編輯器
      2.3.3  安裝SSH和配置SSH無密碼登錄
      2.3.4  安裝Java環境
      2.3.5  安裝單機Hadoop
      2.3.6  Hadoop偽分散式安裝
    2.4  本章小結
    2.5  習題
    實驗1  熟悉常用的Linux操作和Hadoop操作
第2篇  大數據存儲與管理
  第3章  分散式文件系統HDFS
    3.1  分散式文件系統
      3.1.1  電腦集群的基本架構
      3.1.2  分散式文件系統的結構
      3.1.3  分散式文件系統的設計需求
    3.2  HDFS簡介
    3.3  HDFS的相關概念
      3.3.1  數據塊
      3.3.2  名稱節點和數據節點
      3.3.3  第二名稱節點
    3.4  HDFS體系結構
      3.4.1  HDFS概述
      3.4.2  HDFS命名空間管理
      3.4.3  通信協議
      3.4.4  客戶端
      3.4.5  HDFS體系結構的局限性
    3.5  HDFS的存儲原理
      3.5.1  數據的冗餘存儲
      3.5.2  數據存取策略
      3.5.3  數據錯誤與恢復
    3.6  HDFS的數據讀寫過程
      3.6.1  讀數據的過程
      3.6.2  寫數據的過程
    3.7  HDFS編程實踐
      3.7.1  HDFS常用命令
      3.7.2  HDFS的Web頁面
      3.7.3  HDFS常用Java API及應用實例
    3.8  本章小結
    3.9  習題
    實驗2  熟悉常用的HDFS操作
  第4章  分散式資料庫HBase
    4.1  HBase概述
      4.1.1  從BigTable說起
      4.1.2  HBase簡介
      4.1.3  HBase與傳統關係資料庫的對比分析
    4.2  HBase訪問介面
    4.3  HBase數據模型

      4.3.1  數據模型概述
      4.3.2  數據模型的相關概念
      4.3.3  數據坐標
      4.3.4  概念視圖
      4.3.5  物理視圖
      4.3.6  面向列的存儲
    4.4  HBase的實現原理
      4.4.1  HBase的功能組件
      4.4.2  表和Region
      4.4.3  Region的定位
    4.5  HBase運行機制
      4.5.1  HBase的系統架構
      4.5.2  Region伺服器的工作原理
      4.5.3  Store的工作原理
      4.5.4  HLog文件的工作原理
    4.6  HBase編程實踐
      4.6.1  HBase常用的Shell命令
      4.6.2  HBase常用的Java API及應用實例
    4.7  本章小結
    4.8  習題
    實驗3 熟悉常用的HBase操作
  第5章  NoSQL資料庫
    5.1  NoSQL資料庫簡介
    5.2  NoSQL資料庫興起的原因
      5.2.1  關係資料庫無法滿足Web 2.0的需求
      5.2.2  關係資料庫的關鍵特性在Web 2.0時代成為「雞肋」
    5.3  NoSQL資料庫與關係資料庫的簡單比較
    5.4  NoSQL資料庫的四大類型
      5.4.1  鍵值資料庫
      5.4.2  列族資料庫
      5.4.3  文檔資料庫
      5.4.4  圖資料庫
    5.5  NoSQL資料庫的三大基石
      5.5.1  第一大基石：CAP
      5.5.2  第二大基石：BASE
      5.5.3  第三大基石：最終一致性
    5.6  從NoSQL資料庫到NewSQL資料庫
    5.7  本章小結
    5.8  習題
    實驗4  NoSQL資料庫和關係資料庫的操作比較
  第6章  雲資料庫
    6.1  雲資料庫概述
      6.1.1  雲計算是雲資料庫興起的基礎
      6.1.2  雲資料庫的概念
      6.1.3  雲資料庫的特性
      6.1.4  雲資料庫是個性化數據存儲需求的理想選擇
      6.1.5  雲資料庫與其他資料庫的關係
    6.2  雲資料庫產品
      6.2.1  主流雲資料庫廠商簡介
      6.2.2  亞馬遜的雲資料庫產品

      6.2.3  谷歌的雲資料庫產品
      6.2.4  微軟的雲資料庫產品
      6.2.5  其他雲資料庫產品
    6.3  雲資料庫系統架構
      6.3.1  UMP系統概述
      6.3.2  UMP系統架構
      6.3.3  UMP系統功能
    6.4  本章小結
    6.5  習題
第3篇  大數據處理與分析
  第7章  MapReduce
    7.1  MapReduce概述
      7.1.1  分散式並行編程
      7.1.2  MapReduce模型簡介
      7.1.3  Map和Reduce函數
    7.2  MapReduce的工作流程
      7.2.1  MapReduce工作流程概述
      7.2.2  MapReduce工作流程的各個執行階段
      7.2.3  Shuffle過程詳解
    7.3  實例分析：WordCount
      7.3.1  WordCount的程序任務
      7.3.2  WordCount的設計思路
      7.3.3  WordCount的具體執行過程
      7.3.4  一個WordCount執行過程的實例
    7.4  MapReduce的具體應用
      7.4.1  關係代數運算
      7.4.2  分組與聚合運算
      7.4.3  矩陣-向量乘法
      7.4.4  矩陣乘法
    7.5  MapReduce編程實踐
      7.5.1  任務要求
      7.5.2  編寫Map處理邏輯
      7.5.3  編寫Reduce處理邏輯
      7.5.4  編寫main函數
      7.5.5  編譯打包代碼以及運行程序
    7.6  本章小結
    7.7  習題
    實驗5  MapReduce初級編程實踐
  第8章  Hadoop再探討
    8.1  Hadoop的優化
      8.1.1  Hadoop的局限與不足
      8.1.2  針對Hadoop的改進與提升
    8.2  HDFS 2.0的新特性
      8.2.1  HDFS HA
      8.2.2  HDFS聯邦
    8.3  新一代資源調度管理框架YARN
      8.3.1  MapReduce 1.0的缺陷
      8.3.2  YARN設計思路
      8.3.3  YARN體系結構
      8.3.4  YARN工作流程

      8.3.5  YARN框架與MapReduce 1.0框架的對比分析
      8.3.6  YARN的發展目標
    8.4  本章小結
    8.5  習題
  第9章  數據倉庫Hive
    9.1  數據倉庫的概念
    9.2  數據湖
      9.2.1  數據湖的概念
      9.2.2  數據湖與數據倉庫的區別
      9.2.3  數據湖能解決的企業問題
    9.3  湖倉一體
    9.4  數據倉庫Hive概述
      9.4.1  傳統數據倉庫面臨的挑戰
      9.4.2  Hive簡介
      9.4.3  Hive與Hadoop生態系統中其他組件的關係
      9.4.4  Hive與傳統資料庫的對比分析
      9.4.5  Hive在企業中的部署和應用
    9.5  Hive系統架構
    9.6  Hive工作原理
      9.6.1  SQL語句轉換成MapReduce作業的基本原理
      9.6.2  SQL查詢轉換成MapReduce作業的過程
    9.7  Hive HA基本原理
    9.8  Impala
      9.8.1  Impala簡介
      9.8.2  Impala的系統架構
      9.8.3  Impala查詢的執行過程
      9.8.4  Impala與Hive的比較
    9.9  Hive編程實踐
      9.9.1  Hive的數據類型
      9.9.2  Hive的基本操作
      9.9.3  Hive應用實例：WordCount
      9.9.4  Hive編程的優勢
    9.10  本章小結
    9.11  習題
    實驗6  熟悉Hive的基本操作
  第10章  Spark
    10.1  Spark概述
      10.1.1  Spark簡介
      10.1.2  Scala簡介
      10.1.3  Spark與Hadoop的對比
    10.2  Spark生態系統
    10.3  Spark運行架構
      10.3.1  基本概念
      10.3.2  架構設計
      10.3.3  Spark運行基本流程
      10.3.4  RDD的設計與運行原理
    10.4  Spark的部署模式和應用方式
      10.4.1  Spark的部署模式
      10.4.2  從「Hadoop+Storm」架構轉向Spark架構
      10.4.3  Hadoop和Spark的統一部署

    10.5  Spark編程實踐
      10.5.1  啟動Spark Shell
      10.5.2  RDD基本操作
      10.5.3  Spark應用程序
    10.6  本章小結
    10.7  習題
    實驗7  Spark初級編程實踐
  第11章  流計算
    11.1  流計算概述
      11.1.1  靜態數據和流數據
      11.1.2  批量計算和實時計算
      11.1.3  流計算的概念
      11.1.4  流計算與Hadoop
      11.1.5  流計算框架與平台
    11.2  流計算的處理流程
      11.2.1  概述
      11.2.2  數據實時採集
      11.2.3  數據實時計算
      11.2.4  實時查詢服務
    11.3  流計算的應用場景
      11.3.1  應用場景1：實時分析
      11.3.2  應用場景2：實時交通
    11.4  流計算框架Storm
    11.5  流計算框架Spark Streaming
    11.6  流處理框架Structured Streaming
      11.6.1  Structured Streaming簡介
      11.6.2  Structured Streaming的關鍵思想
      11.6.3  Structured Streaming的兩種處理模型
    11.7  流計算框架Flink
    11.8  本章小結
    11.9  習題
  第12章  Flink
    12.1  Flink簡介
    12.2  為什麼選擇Flink
      12.2.1  傳統數據處理架構
      12.2.2  大數據Lambda架構
      12.2.3  流處理架構
      12.2.4  Flink是理想的流計算框架
      12.2.5  Flink的優勢
    12.3  Flink典型應用場景
      12.3.1  事件驅動型應用
      12.3.2  數據分析應用
      12.3.3  數據流水線應用
    12.4  Flink核心組件棧
    12.5  Flink體系架構
    12.6  Flink編程模型
    12.7  Flink編程實踐
      12.7.1  安裝Flink
      12.7.2  編程實現WordCount程序
    12.8  本章小結

    12.9  習題
    實驗8  Flink初級編程實踐
  第13章  圖計算
    13.1  圖計算簡介
      13.1.1  傳統圖計算解決方案的不足之處
      13.1.2  通用圖計算軟體
    13.2  Pregel簡介
    13.3  Pregel圖計算模型
      13.3.1  有向圖和頂點
      13.3.2  頂點之間的消息傳遞
      13.3.3  Pregel計算過程
      13.3.4  Pregel計算過程的實例
    13.4  Pregel的C++ API
      13.4.1  消息傳遞機制
      13.4.2  Combiner
      13.4.3  Aggregator
      13.4.4  拓撲改變
      13.4.5  輸入和輸出
    13.5  Pregel的體系結構
      13.5.1  Pregel的執行過程
      13.5.2  容錯性
      13.5.3  Worker
      13.5.4  Master
      13.5.5  Aggregator
    13.6  Pregel的應用實例
      13.6.1  單源最短路徑問題
      13.6.2  二分匹配問題
    13.7  Pregel和MapReduce實現PageRank演算法的對比
      13.7.1  PageRank演算法
      13.7.2  PageRank演算法在Pregel中的實現
      13.7.3  PageRank演算法在MapReduce中的實現
      13.7.4  PageRank演算法在Pregel和MapReduce中實現方式的比較
    13.8  本章小結
    13.9  習題
第4篇  大數據應用
  第14章  大數據應用
    14.1  大數據在互聯網領域的應用
    14.2  大數據在生物醫學領域的應用
      14.2.1  流行病預測
      14.2.2  智慧醫療
      14.2.3  生物信息學
    14.3  大數據在物流領域的應用
      14.3.1  智能物流的概念
      14.3.2  大數據是智能物流的關鍵
      14.3.3  中國智能物流骨幹網—菜鳥
    14.4  大數據在城市管理領域的應用
      14.4.1  智能交通
      14.4.2  環保監測
      14.4.3  城市規劃
      14.4.4  安防

    14.5  大數據在金融領域的應用
      14.5.1  高頻交易
      14.5.2  市場情緒分析
      14.5.3  信貸風險分析
      14.5.4  大數據徵信
    14.6  大數據在汽車領域的應用
    14.7  大數據在零售領域的應用
      14.7.1  發現關聯購買行為
      14.7.2  客戶群體細分
      14.7.3  供應鏈管理
    14.8  大數據在餐飲領域的應用
      14.8.1  餐飲領域擁抱大數據
      14.8.2  餐飲O2O
    14.9  大數據在電信領域的應用
    14.10  大數據在能源領域的應用
    14.11  大數據在體育和娛樂領域的應用
      14.11.1  訓練球隊
      14.11.2  投拍影視作品
      14.11.3  預測比賽結果
    14.12  大數據在安全領域的應用
      14.12.1  「稜鏡門」事件
      14.12.2  應用大數據技術防禦網路攻擊
      14.12.3  應用大數據工具預防犯罪
    14.13  大數據在日常生活中的應用
    14.14  本章小結
    14.15  習題
參考文獻

同類熱銷排行榜

最近瀏覽的商品

大數據技術原理與應用(概念存儲處理分析與應用第4版)/大數據創新人才培養系列