幫助中心 | 我的帳號 | 關於我們

PySpark機器學習自然語言處理與推薦系統

  • 作者:(印)普拉莫德·辛格|責編:王軍|譯者:蒲成
  • 出版社:清華大學
  • ISBN:9787302540908
  • 出版日期:2020/01/01
  • 裝幀:平裝
  • 頁數:160
人民幣:RMB 59 元      售價:
放入購物車
加入收藏夾

內容大鋼
    使用PySpark構建機器學習模型、自然語言處理應用程序以及推薦系統,從而應對各種業務挑戰。本書首先介紹Spark的基礎知識及其演進,然後講解使用PySpark構建傳統機器學習演算法以及自然語言處理和推薦系統的全部知識點。
    《PySpark機器學習、自然語言處理與推薦系統》闡釋如何構建有監督機器學習模型,比如線性回歸、邏輯回歸、決策樹和隨機森林,還介紹了無監督機器學習模型,比如K均值和層次聚類。本書重點介紹特徵工程,以便使用PySpark創建有用的特徵,從而訓練機器學習模型。自然語言處理的相關章節將介紹文本處理、文本挖掘以及用於分類的嵌入。
    在閱讀完本書後,讀者將了解如何使用PySpark的機器學習庫構建和訓練各種機器學習模型。此外,還將熟練掌握相關的PySpark組件,比如數據獲取、數據處理和數據分析,通過使用它們開發數據驅動的智能應用。
    主要特色
    構建一系列有監督和無監督機器學習演算法
    使用Spark MLlib庫實現機器學習演算法
    使用Spark MLlib庫開發推薦系統
    處理與特徵工程、分類平衡、偏差和方差以及交叉驗證有關的問題,以便構建最優的擬合模型
    讀者對象
    數據科學家、機器學習工程師。

作者介紹
(印)普拉莫德·辛格|責編:王軍|譯者:蒲成
    普拉莫德·辛格,Pramod Singh是Publicis.Sapient公司數據科學部門的經理,目前正作為數據科學跟蹤負責人與梅賽德斯賓士的一個項目進行合作。他在機器學習、數據工程、編程,以及為各種業務需求設計演算法方面擁有豐富的實踐經驗,領域涉及零售、電信、汽車以及日用消費品等行業。他在Publicis.Sapient主導了大量應對機器學習和AI的戰略計劃。他在孟買大學獲得了電氣與電子工程的學士學位,並且在印度共生國際大學獲得了MBA學位(運營&財務),還在IIM – Calcutta(印度管理學院加爾各答分校)獲得了數據分析認證。在過去八年中,他一直在跟進多個數據項目。在大量客戶項目中,他使用R、Python、Spark和TensorFlow應用機器學習和深度學習技術。他一直是各重大會議和大學的演講常客。他會在Publicis.Sapient舉辦數據科學聚合併且定期出席關於ML和AI的網路研討會。他和妻子以及兩歲的兒子居住在班加羅爾。閑暇的時候,他喜歡彈吉他、寫代碼、閱讀以及觀看足球比賽。

目錄
第1章  數據革命
  1.1  數據生成
  1.2  Spark
    1.2.1  Spark Core
    1.2.2  Spark組件
  1.3  設置環境
    1.3.1  Windows
    1.3.2  iOS
  1.4  小結
第2章  機器學習簡介
  2.1  有監督機器學習
  2.2  無監督機器學習
  2.3  半監督機器學習
  2.4  強化學習
  2.5  小結
第3章  數據處理
  3.1  載入和讀取數據
  3.2  添加一個新列
  3.3  篩選數據
    3.3.1  條件
    3.3.2  條件
  3.4  列中的非重複值
  3.5  數據分組
  3.6  聚合
  3.7  用戶自定義函數(UDF)
    3.7.1  傳統的Python函數
    3.7.2  使用lambda函數
    3.7.3  Pandas UDF(向量化的UDF)
    3.7.4  Pandas UDF(多列)
  3.8  去掉重複值
  3.9  刪除列
  3.10  寫入數據
    3.10.1  csv
    3.10.2  嵌套結構
  3.11  小結
第4章  線性回歸
  4.1  變數
  4.2  理論
  4.3  說明
  4.4  評估
  4.5  代碼
    4.5.1  數據信息
    4.5.2  步驟1:創建SparkSession對象
    4.5.3  步驟2:讀取數據集
    4.5.4  步驟3:探究式數據分析
    4.5.5  步驟4:特徵工程化
    4.5.6  步驟5:劃分數據集
    4.5.7  步驟6:構建和訓練線性回歸模型
    4.5.8  步驟7:在測試數據上評估線性回歸模型
  4.6  小結

第5章  邏輯回歸
  5.1  概率
    5.1.1  使用線性回歸
    5.1.2  使用Logit
  5.2  截距(回歸係數)
  5.3  虛變數
  5.4  模型評估
    5.4.1  正確的正面預測
    5.4.2  正確的負面預測
    5.4.3  錯誤的正面預測
    5.4.4  錯誤的負面預測
    5.4.5  準確率
    5.4.6  召回率
    5.4.7  精度
    5.4.8  F1分數
    5.4.9  截斷/閾值概率
    5.4.10  ROC曲線
  5.5  邏輯回歸代碼
    5.5.1  數據信息
    5.5.2  步驟1:創建Spark會話對象
    5.5.3  步驟2:讀取數據集
    5.5.4  步驟3:探究式數據分析
    5.5.5  步驟4:特徵工程
    5.5.6  步驟5:劃分數據集
    5.5.7  步驟6:構建和訓練邏輯回歸模型
    5.5.8  訓練結果
    5.5.9  步驟7:在測試數據上評估線性回歸模型
    5.5.10  混淆矩陣
  5.6  小結
第6章  隨機森林
  6.1  決策樹
    6.1.1  熵
    6.1.2  信息增益
  6.2  隨機森林
  6.3  代碼
    6.3.1  數據信息
    6.3.2  步驟1:創建SparkSession對象
    6.3.3  步驟2:讀取數據集
    6.3.4  步驟3:探究式數據分析
    6.3.5  步驟4:特徵工程
    6.3.6  步驟5:劃分數據集
    6.3.7  步驟6:構建和訓練隨機森林模型
    6.3.8  步驟7:基於測試數據進行評估
    6.3.9  準確率
    6.3.10  精度
    6.3.11  AUC曲線下的面積
    6.3.12  步驟8:保存模型
  6.4  小結
第7章  推薦系統
  7.1  推薦

    7.1.1  基於流行度的RS
    7.1.2  基於內容的RS
    7.1.3  基於協同過濾的RS
    7.1.4  混合推薦系統
  7.2  代碼
    7.2.1  數據信息
    7.2.2  步驟1:創建SparkSession對象
    7.2.3  步驟2:讀取數據集
    7.2.4  步驟3:探究式數據分析
    7.2.5  步驟4:特徵工程
    7.2.6  步驟5:劃分數據集
    7.2.7  步驟6:構建和訓練推薦系統模型
    7.2.8  步驟7:基於測試數據進行預測和評估
    7.2.9  步驟8:推薦活動用戶可能會喜歡的排名靠前的電影
  7.3  小結
第8章  聚類
  8.1  初識聚類
  8.2  用途
    8.2.1  K-均值
    8.2.2  層次聚類
  8.3  代碼
    8.3.1  數據信息
    8.3.2  步驟1:創建SparkSession對象
    8.3.3  步驟2:讀取數據集
    8.3.4  步驟3:探究式數據分析
    8.3.5  步驟4:特徵工程
    8.3.6  步驟5:構建K均值聚類模型
    8.3.7  步驟6:聚類的可視化
  8.4  小結
第9章  自然語言處理
  9.1  引言
  9.2  NLP涉及的處理步驟
  9.3  語料
  9.4  標記化
  9.5  移除停用詞
  9.6  詞袋
  9.7  計數向量器
  9.8  TF-IDF
  9.9  使用機器學習進行文本分類
  9.10  序列嵌入
  9.11  嵌入
  9.12  小結

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032