幫助中心 | 我的帳號 | 關於我們

大數據分析原理和應用/新工科建設與緊缺人才培養數據科學系列

  • 作者:編者:海沫//李海峰|責編:劉瑀
  • 出版社:電子工業
  • ISBN:9787121453113
  • 出版日期:2023/04/01
  • 裝幀:平裝
  • 頁數:238
人民幣:RMB 59 元      售價:
放入購物車
加入收藏夾

內容大鋼
    隨著互聯網的發展,大數據的思想與技術已經逐漸滲入人們生活、工作的方方面面。本書突出「大數據分析」這一主題,從大數據分析原理、技術和應用的角度,講述大數據分析基礎知識、大數據分析平台核心原理、大數據分析關鍵技術及大數據分析應用。
    大數據分析的基礎知識主要包括大數據的產生背景與定義、大數據的特點和技術、大數據的應用和價值、大數據時代的思維變革、國家大數據戰略;大數據分析平台的核心原理主要包括開源大數據平台Hadoop和Spark的發展、生態系統、體系結構、安裝和使用方法等,大數據存儲(Hadoop分散式文件系統——HDFS的基本原理),大數據處理(MapReduce並行編程模型、Hadoop2.0的資源管理調度框架——YARN);大數據分析的關鍵技術主要包括大數據的獲取、數據清洗、數據歸約、數據標準化、大數據分析演算法(包括聚類、分類演算法)的應用;大數據分析的應用是以案例的形式給出大數據分析在上市公司信用風險預測研究中的實際應用。
    本書能培養學生搭建大數據分析平台的工程技術能力,面向大規模、多類型數據集的分析及處理能力,基於大數據思維方式進行數據分析的能力,將大數據技術與實際財經應用問題相結合併實現快速決策分析的能力,同時培養學生科技報國的家國情懷和使命擔當。
    本書適合作為高等院校各專業(尤其是大數據相關專業、財經類專業)大數據分析相關課程的教材,也可供相關技術人員參考。

作者介紹
編者:海沫//李海峰|責編:劉瑀

目錄
第1章  大數據的概述
  1.1  大數據的產生背景與概念
    1.1.1  大數據的產生背景
    1.1.2  大數據的定義
    1.1.3  數據的存儲單位
    1.1.4  大數據的分類
  1.2  大數據的特點和技術
    1.2.1  大數據的特點
    1.2.2  大數據的技術
  1.3  大數據的應用和價值
    1.3.1  大數據的應用
    1.3.2  大數據的價值
  1.4  大數據時代的思維變革
  1.5  國家大數據戰略
    1.5.1  國家大數據戰略的歷史沿革
    1.5.2  國家大數據戰略的時代背景
    1.5.3  國家大數據戰略的內涵
    1.5.4  國家大數據戰略的意義
  1.6  本章小結
  1.7  習題
第2章  開源大數據平台
  2.1  Hadoop平台
    2.1.1  Hadoop的概述
    2.1.2  Hadoop的體系結構和生態系統
    2.1.3  Hadoop的安裝和使用
  2.2  Spark平台
    2.2.1  Spark的概述
    2.2.2  Spark的生態系統和體系結構
    2.2.3  RDD的運行原理
    2.2.4  Spark的安裝和使用
  2.3  本章小結
  2.4  習題
第3章  HDFS
  3.1  HDFS的概述
    3.1.1  分散式文件系統
    3.1.2  HDFS的簡介
  3.2  HDFS的體系結構
      3.2.1 HDFS 1.0的體系結構
      3.2.2 HDFS 2.0的體系結構
  3.3  HDFS的存儲原理
    3.3.1  冗餘數據保存
    3.3.2  數據存取策略
    3.3.3  文件讀/寫過程
    3.3.4  數據錯誤與恢復
  3.4  HDFS的優缺點分析
  3.5  HDFS的常用命令
  3.6  本章小結
  3.7  習題
第4章  MapReduce並行編程模型
  4.1  MapReduce的概述

    4.1.1  分散式並行編程
    4.1.2  MapReduce的簡介
    4.1.3  Map函數和Reduce函數
  4.2  MapReduce的體系結構
      4.2.1 MapReduce 1.0  體系結構的總體框架
      4.2.2 Hadoop 2.0  的體系結構
    4.2.3  MapReduce的容錯性
  4.3  MapReduce的工作流程
    4.3.1  MapReduce工作流程的概述
    4.3.2  MapReduce的執行過程
    4.3.3  Shuffle過程詳解
  4.4  MapReduce的實例分析
    4.4.1  WordCount
    4.4.2  倒排索引
    4.4.3  Top
  4.5  MapReduce的編程實踐
    4.5.1  任務要求
    4.5.2  編寫Map處理邏輯
    4.5.3  編寫Reduce處理邏輯
    4.5.4  編寫main方法
    4.5.5  實驗過程
  4.6  MapReduce的優缺點分析
    4.6.1  MapReduce的優點
    4.6.2  MapReduce的缺點
  4.7  本章小結
  4.8  本章習題
第5章  Hadoop 2.0的資源管理調度框架??YARN
  5.1  YARN的產生背景
      5.1.1 MapReduce 1.0中存在的問題
    5.1.2  YARN的產生
  5.2  YARN的設計思路
  5.3  YARN的體系結構
    5.3.1  YARN的體系結構總體框架
    5.3.2  YARN各組件功能的介紹
    5.3.3  YARN的容錯性
  5.4  YARN的工作流程
  5.5  YARN的優缺點分析
    5.5.1  YARN的優點
    5.5.2  YARN的缺點
  5.6  本章小結
  5.7  本章習題
第6章  大數據的獲取和預處理
  6.1  大數據的獲取
    6.1.1  爬蟲的基礎知識
    6.1.2  Scrapy爬蟲的原理與流程
    6.1.3  Scrapy的爬蟲實例
  6.2  數據清洗
    6.2.1  數據清洗的概述
    6.2.2  數據清洗的原理
    6.2.3  數據清洗的流程

    6.2.4  Pandas數據清洗的實例
  6.3  數據歸約
    6.3.1  維歸約
    6.3.2  屬性選擇
    6.3.3  離散化方法
    6.3.4  PCA的實例
  6.4  數據標準化
    6.4.1  數據標準化的概念
    6.4.2  數據標準化的方法
    6.4.3  數據標準化的實例
  6.5  本章小結
  6.6  習題
第7章  大數據分析演算法
  7.1  聚類演算法
    7.1.1  經典聚類演算法
    7.1.2  大數據聚類演算法的應用
  7.2  分類演算法
    7.2.1  經典分類演算法
    7.2.2  大數據分類演算法的應用
  7.3  本章小結
  7.4  習題
第8章  大數據分析的應用案例
  8.1  案例背景
  8.2  數據獲取和預處理
    8.2.1  獲取來源
    8.2.2  數據說明
    8.2.3  數據預處理
  8.3  評價指標說明
  8.4  基於Python的實現
    8.4.1  基於Python的邏輯回歸
    8.4.2  基於Python的SVM
    8.4.3  基於Python的樸素貝葉斯
    8.4.4  基於Python的決策樹
    8.4.5  基於Python的隨機森林
  8.5  基於Spark的實現
    8.5.1  基於Spark的邏輯回歸
    8.5.2  基於Spark的SVM
  8.6  實驗結果分析
  8.7  本章小結
  8.8  習題


  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032