內容大鋼
實現和設計向用戶提供建議的系統是當前最流行且最重要的機器學習應用之一。無論是希望客戶在你的在線商店中找到最具吸引力的商品、獲取豐富且有趣的視頻,還是獲取他們需要了解的新聞,推薦系統(RecSys)都能提供解決方案。
在這本實用指南中,本書作者闡述了核心概念,並提供示例,幫助你構建適用於任何行業或規模的推薦系統。你將學習構建成功推薦系統所需的數學知識、基本理念,以及具體的實現細節。本書涵蓋推薦系統平台的核心組件、MLOps相關工具,以及PySpark、SparkSQL、FastAPI和Weights & Biases中的代碼示例和實用建議。
你將學習:
構建推薦系統所需的數據。
如何將你的數據和業務問題框定為推薦系統問題。
適用於你的系統的模型評估方法。
選擇、實現、訓練、測試和部署模型的方法。
需要跟蹤的關鍵指標,以確保系統按預期運行。
隨著對用戶、產品和業務的深入了解,如何不斷改進你的系統。
作者介紹
(美)布萊恩·比肖夫//余養勵|責編:劉熾|譯者:余琦//張錦程//何婷婷
目錄
前言
第一部分 熱身
第1章 概述
1.1 推薦系統的核心組件
1.1.1 收集器
1.1.2 排序器
1.1.3 伺服器
1.2 最簡單的推薦器
1.2.1 簡單推薦器
1.2.2 最受歡迎的條目推薦器
1.3 JAX的簡要介紹
1.3.1 基礎類型,初始化和不可變性
1.3.2 索引和切片
1.3.3 廣播
1.3.4 隨機數
1.3.5 即時編譯
1.4 總結
第2章 用戶-物品項評分與問題構建
2.1 用戶-物品項矩陣
2.2 用戶-用戶協同過濾 vs 物品項-物品項協同過濾
2.3 Netflix挑戰
2.4 隱式評分
2.5 數據收集與用戶日誌記錄
2.5.1 日誌記錄的內容
2.5.2 數據收集與事件記錄
2.5.3 漏斗分析
2.6 業務洞察與用戶偏好
2.7 總結
第3章 數學基礎
3.1 齊夫定律與馬太效應在推薦系統中的應用
3.2 稀疏性
3.3 用戶相似性在協同過濾中的應用
3.3.1 皮爾遜相關係數
3.3.2 基於相似性的評分
3.4 探索-利用作為推薦系統
3.4.1 ε-貪婪演算法
3.4.2 ε應該設為多少
3.5 自然語言處理(NLP)與推薦系統的關係
3.5.1 向量搜索
3.5.2 最近鄰搜索
3.6 總結
第4章 推薦系統設計
4.1 離線 vs 在線
4.2 收集器
4.2.1 離線收集器
4.2.2 在線收集器
4.3 排序器
4.3.1 離線排序器
4.3.2 在線排序器
4.4 伺服器
4.4.1 離線伺服器
4.4.2 在線伺服器
4.5 總結
第5章 綜合實踐:基於內容的推薦系統
5.1 版本控制軟體
5.2 Python構建系統
5.3 隨機物品推薦器
5.4 獲取STL數據集圖像
5.5 卷積神經網路定義
5.6 在JAX、Flax和Optax中訓練模型
5.7 輸入管道
5.8 總結
第二部分 檢索
第6章 數據處理
6.1 給系統注入數據
6.1.1 PySpark
&nbs