幫助中心 | 我的帳號 | 關於我們

大數據基礎應用(新一代信息技術系列教材)

  • 作者:編者:劉黎志//劉瑋//張明|責編:王玉鑫
  • 出版社:機械工業
  • ISBN:9787111763864
  • 出版日期:2024/09/01
  • 裝幀:平裝
  • 頁數:298
人民幣:RMB 59.8 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書首先介紹了大數據基礎應用:重點講解了如何搭建Hadoop分散式集群平台,使用Java語言進行MapReduce分散式編程;HBase及Hive資料庫環境的安裝和數據的增、刪、改、查操作;Spark平台的搭建、RDD操作及Spark SQL查詢;Flink平台的搭建,Kafka消息中間件的使用及流批一體計算。其次對數據預處理的常用方法及如何使用Matplotlib實現數據可視化進行了討論。最後講解了大數據與機器學習、深度學習。本書將機器學習演算法劃分為分類及回歸兩個問題進行了討論,並結合scikit-learn進行了實例講解。在深度學習部分,對深度神經網路及卷積神經網路進行了介紹,就如何使用Keras框架實現圖像分類進行了實例講解,此外介紹了循環神經網路LSTM的原理及應用。
    本書適用於電腦類及信息技術類相關專業在讀本科生及研究生,也可供大數據及人工智慧相關領域的技術人員參考。

作者介紹
編者:劉黎志//劉瑋//張明|責編:王玉鑫

目錄
前言
第1章  Hadoop分散式集群
  1.1  什麼是大數據
    1.1.1  大數據的基本概念
    1.1.2  大數據的產生和應用
  1.2  大數據關鍵技術
    1.2.1  文件系統
    1.2.2  資料庫系統
    1.2.3  索引與查詢技術
    1.2.4  大數據分析技術
    1.2.5  大數據處理工具
    1.2.6  機器學習與深度學習
  1.3  Hadoop生態圈
  1.4  Hadoop分散式集群環境搭建
    1.4.1  實驗環境安裝及配置
    1.4.2  Hadoop集群平台的搭建
    1.4.3  MapReduce測試
第2章  分散式計算框架MapReduce
  2.1  MapReduce分散式框架
    2.1.1  MapReduce原理
    2.1.2  合併函數(Combiner)
  2.2  WordCount的處理過程
    2.2.1  WordCount示例代碼運行
    2.2.2  WordCount源碼分析
    2.2.3  WordCount詳細處理過程
    2.2.4  MapReduce新舊版區別
  2.3  MapReduce編程示例
    2.3.1  Eclipse開發環境搭建
    2.3.2  數據去重
    2.3.3  數據排序
    2.3.4  平均成績
    2.3.5  單表關聯
    2.3.6  多表關聯
    2.3.7  倒排索引
第3章  NoSQL資料庫
  3.1  NoSQL資料庫概述
    3.1.1  NoSQL資料庫的特點
    3.1.2  NoSQL資料庫與關係資料庫的比較
    3.1.3  NoSQL資料庫的分類
  3.2  HBase列式資料庫
    3.2.1  HBase的基本概念
    3.2.2  HBase的安裝及基本操作
    3.2.3  HBase客戶端編程
  3.3  Hive數據倉庫工具
    3.3.1  Hive的安裝及環境配置
    3.3.2  Hive的基本使用
第4章  分散式計算框架Spark
  4.1  Spark分散式計算引擎
    4.1.1  Spark的基本概念
    4.1.2  Spark的核心技術

    4.1.3  Spark生態系統
    4.1.4  Spark技術分析
    4.1.5  Spark的應用場景
  4.2  Spark分散式集群環境搭建
    4.2.1  環境搭建
    4.2.2  環境測試
  4.3  RDD分散式編程技術
    4.3.1  RDD的基本使用
    4.3.2  RDD操作
    4.3.3  共享變數
  4.4  Spark SQL查詢分析技術
    4.4.1  DataSet(DataFrame)和RDD
    4.4.2  Spark SQL操作
    4.4.3  Spark SQL與數據源的交互
    4.4.4  Spark SQL與Hive交互
    4.4.5  Spark SQL的分區及分桶
第5章  流式計算
  5.1  Flink的基本概念
    5.1.1  Flink框架
    5.1.2  Flink的應用
  5.2  Flink的安裝和開發環境設置
    5.2.1  Flink本地安裝
    5.2.2  Flink開發環境設置
  5.3  數據流介面
    5.3.1  DataStream概述
    5.3.2  數據流介面的基本應用
    5.3.3  Kafka消息中間件
  5.4  水位線和窗口
    5.4.1  水位線(WaterMark)
    5.4.2  窗口(Window)
    5.4.3  應用舉例
  5.5  表介面和表查詢
    5.5.1  動態表
    5.5.2  表介面和表查詢的應用
第6章  數據可視化分析與預處理
  6.1  數據可視化分析
    6.1.1  分位數與箱線圖
    6.1.2  數據的相關性與散點圖
    6.1.3  數據的分佈與直方圖
    6.1.4  Matplotlib繪圖
  6.2  數據預處理
    6.2.1  連續型輸入特徵的處理(歸一化)
    6.2.2  類別(離散)型輸入特徵的處理
    6.2.3  分類標籤的處理
    6.2.4  主成因分析(PCA-Principal Component Analysis)
第7章  大數據與機器學習
  7.1  使用scikit-learn進行機器學習
    7.1.1  scikit-learn簡介
    7.1.2  使用scikit-learn進行機器學習
  7.2  分類問題

    7.2.1  邏輯回歸
    7.2.2  混淆矩陣
    7.2.3  多分類
    7.2.4  不平衡分類
    7.2.5  交叉驗證和參數尋優
  7.3  回歸問題
    7.3.1  一元線性回歸
    7.3.2  多元線性回歸
第8章  大數據與深度學習
  8.1  深度學習概述
    8.1.1  從神經網路到深度學習
    8.1.2  深度學習框架Keras
  8.2  深度神經網路
    8.2.1  深度神經網路示例
    8.2.2  模型的保存和讀取
    8.2.3  模型訓練的歷史過程
  8.3  卷積神經網路
    8.3.1  卷積神經網路的層
    8.3.2  使用CNN進行圖像分類
    8.3.3  使用VGG16網路模型
  8.4  循環神經網路
    8.4.1  RNN
    8.4.2  LSTM
參考文獻

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032