幫助中心 | 我的帳號 | 關於我們

Spark機器學習技術及應用

  • 作者:編者:遲殿委//侯愛玲|責編:張玥//薛陽
  • 出版社:清華大學
  • ISBN:9787302688846
  • 出版日期:2025/05/01
  • 裝幀:平裝
  • 頁數:183
人民幣:RMB 55 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書是基於Spark ML和Scala語言編寫的機器學習實戰書籍,基於目前新版本的Spark框架展開,內容包括機器學習準備、機器學習核心應用、綜合項目提升三部分。首先是機器學習準備部分,包括第1?4章,分別介紹了大數據與Spark的基礎知識、Spark安裝和開發環境配置、Scala編程基礎、Spark數據結構基礎。然後是機器學習核心應用部分,包括第5?10章,分別介紹了Spark機器學習基礎、線性回歸及應用、分類演算法及應用、數據降維及應用、聚類演算法及應用、關聯規則挖掘演算法及應用。最後的綜合項目提升部分包括第11和第12兩章,分別通過綜合實戰項目案例進行鞏固提升。
    本書配套較豐富的實戰案例,併為案例提供了詳細的操作步驟。另外,本書配套了程序源代碼和PPT等。本書可作為從事大數據分析和人工智慧工作的工程師的參考用書,也可作為高等學校電腦科學與技術、軟體工程、數據科學與大數據技術、智能科學與技術、人工智慧等專業的大數據課程教材。

作者介紹
編者:遲殿委//侯愛玲|責編:張玥//薛陽
    遲殿委,南昌大學電腦軟體與理論專業碩士,系統架構設計師。有多年企業軟體研發經驗和豐富的JavaEE、大數據技術培訓經驗,熟練掌握JavaEE與大數據全棧技術框架,擅長JavaEE系統架構設計、大數據分析與挖掘。著有圖書《Hadoop大數據分析技術》《Hadoop+Spark大數據分析實戰》《Spring Boot企業級開發實戰(視頻教學版)》《深入淺出Java編程》《Spring Boot+Spring Cloud微服務開發》。

目錄
第1章  大數據與Spark
  1.1  什麼是大數據
  1.2  大數據的來源和數據分析的關鍵要素
  1.3  Spark概述
  1.4  Spark機器學習庫
  1.5  Spark前景
  小結
第2章  Spark 3.5安裝和開發環境配置
  2.1  Spark的運行模式概述
  2.2  單機模式下Spark環境安裝與配置
    2.2.1  Java 8安裝
    2.2.2  Scala安裝
    2.2.3  IntelliJ IDEA開發環境安裝
    2.2.4  Scala插件的安裝
    2.2.5  編寫Java程序
    2.2.6  編寫Scala程序
    2.2.7  Spark 3.5單機版安裝
  2.3  wordCount實例
    2.3.1  Spark 3.5實現wordCount
    2.3.2  MapReduce實現wordCount
  小結
第3章  Scala編程基礎
  3.1  基礎語法
  3.2  函數
  3.3  控制語句
  3.4  函數式編程
  3.5  模式匹配
  3.6  類和對象
  3.7  Scala異常處理
  3.8  Trait(特徵)
  3.9  Scala文件I/O
  小結
第4章  Spark數據結構基礎
  4.1  RDD概述
    4.1.1  常見的轉換運算元
    4.1.2  常見的行動運算元
  4.2  DataFrame概述
    4.2.1  DataFrame簡介
    4.2.2  DataFrame的特性
    4.2.3  DataFrame與DataSet的差異
    4.2.4  DataFrame的缺點
  4.3  DataFrame工作機制
    4.3.1  DataFrame本質
    4.3.2  寬依賴與窄依賴
  4.4  DataFrame實戰詳解
    4.4.1  創建DataFrame
    4.4.2  提前計算的cache()方法
    4.4.3  用於列篩選的select()和selectExpr()方法
    4.4.4  DataFrame的收集行collect()方法
    4.4.5  DataFrame計算行數count()方法

    4.4.6  DataFrame限制輸出limit()方法
    4.4.7  除去數據集中重複項的distinct()方法
    4.4.8  過濾數據的filter()方法
    4.4.9  以整體數據為單位操作數據的flatMap()方法
    4.4.10  以單個數據為目標進行操作的map()方法
    4.4.11  分組數據的groupBy()和agg()方法
    4.4.12  刪除數據集中某列的drop()方法
    4.4.13  隨機採樣方法和隨機劃分方法
    4.4.14  排序類型操作的sort()和orderBy()方法
    4.4.15  DataFrame和DataSet以及RDD之間的相互轉換
  小結
第5章  Spark機器學習基礎
  5.1  機器學習概述
    5.1.1  機器學習介紹
    5.1.2  機器學習架構和分類
  5.2  ML基本數據類型
    5.2.1  數據類型
    5.2.2  機器學習工作流程之管道技術
    5.2.3  管道中的主要概念
  5.3  ML數學基礎
    5.3.1  統計指標
    5.3.2  統計量基本數據
    5.3.3  距離計算
    5.3.4  兩組數據相關係數計算
    5.3.5  分層抽樣
    5.3.6  假設檢驗
    5.3.7  隨機數
  小結
第6章  線性回歸及應用
  6.1  線性回歸理論
  6.2  回歸演算法的評價指標
  6.3  梯度下降演算法
    6.3.1  演算法理解
    6.3.2  SGD演算法理論
    6.3.3  SGD演算法實戰
  6.4  過擬合
    6.4.1  過擬合產生的原因
    6.4.2  常見線性回歸正則化方法
  6.5  線性回歸實戰
    6.5.1  線性回歸程序
    6.5.2  廣義線性回歸
  小結
第7章  分類演算法及應用
  7.1  邏輯回歸理論與應用
    7.1.1  演算法理論知識
    7.1.2  二分類演算法實戰
    7.1.3  多分類演算法實戰
  7.2  SVM理論及應用
    7.2.1  演算法理論知識
    7.2.2  SVM演算法實戰

  7.3  樸素貝葉斯分類及應用
    7.3.1  演算法理論
    7.3.2  樸素貝葉斯實戰應用
  7.4  決策樹分類及應用
    7.4.1  演算法理論
    7.4.2  ID3演算法基礎
    7.4.3  決策樹演算法實戰
  小結
第8章  數據降維及應用
  8.1  數據降維概述
  8.2  PCA降維演算法
    8.2.1  PCA演算法理論
    8.2.2  PCA演算法實戰
  8.3  SVD演算法
    8.3.1  SVD理論
    8.3.2  SVD實戰應用
  小結
第9章  聚類演算法及應用
  9.1  聚類理論基礎
  9.2  K-means演算法基礎及應用
    9.2.1  K-means演算法理論
    9.2.2  K-means演算法實戰
  9.3  高斯混合聚類
    9.3.1  高斯聚類理論
    9.3.2  高斯混合聚類應用
  9.4  快速迭代聚類
    9.4.1  快速迭代聚類理論基礎
    9.4.2  PIC實戰
  小結
第10章  關聯規則挖掘演算法及應用
  10.1  關聯規則挖掘演算法理論
    10.1.1  大數據關聯規則挖掘常識
    10.1.2  經典的Apriori演算法
    10.1.3  FP-growth演算法
  10.2  關聯規則挖掘演算法實戰
  小結
第11章  文本分類項目實戰
  11.1  詞向量化技術
    11.1.1  文本向量化理論
    11.1.2  Word2Vec詞向量化實例
  11.2  多層感知器
  11.3  文本分類實戰
  小結
第12章  電影分析項目實戰
  12.1  項目介紹
    12.1.1  數據集介紹
    12.1.2  需求分析
  12.2  數據統計分析模塊實現
    12.2.1  公共代碼開發
    12.2.2  需求1實現及結果

    12.2.3  需求2實現及結果
    12.2.4  需求3實現及結果
  12.3  機器學習影片推薦模塊實現
    12.3.1  協同過濾概述
    12.3.2  關於物品間相似度計算
    12.3.3 &