內容大鋼
在人工智慧與大數據時代,優化演算法已成為機器學習與數據科學的核心支柱。本書以獨特的應用視角,將抽象的數學理論與實際工程問題緊密結合,為讀者架起了一座從理論到實踐的橋樑。
本書由優化領域權威學者Stephen J.Wright和Benjamin Recht撰寫,旨在為讀者提供一本條理清晰、系統全面的優化技術指南,尤其聚焦數據科學與機器學習領域的核心優化技術。書中詳細闡述了基本優化演算法,並分析了它們的收斂性和複雜度。全書共11章,第1章通過典型案例闡釋優化在現代數據分析中的應用;第2?10章深入剖析多種核心演算法,包括加速梯度法、隨機梯度法(機器學習的核心演算法)、坐標下降法(高效處理高維問題的利器)、簡單約束問題的梯度法、具有非平滑項的凸優化問題的理論和演算法,以及約束優化問題的對偶方法;第11章拓展至深度學習與控制領域的梯度計算方法(如自動微分、反向傳播的優化視角)。
作者介紹
(美)斯蒂芬·J.賴特//本傑明·雷希特|責編:劉鋒//章承林|譯者:張璐//陳暢
目錄
譯者序
前言
第1章 概述
1.1 數據分析和優化
1.2 最小二乘法
1.3 矩陣因子分解問題
1.4 支持向量機
1.5 邏輯回歸
1.6 深度學習
1.7 重點
註釋和參考
第2章 平滑優化的基礎
2.1 優化問題的解的分類
2.2 泰勒定理
2.3 刻畫平滑函數的最小值
2.4 凸集和函數
2.5 強凸函數
註釋和參考
習題
第3章 下降法
3.1 下降方向
3.2 最速下降法
3.2.1 一般情況
3.2.2 凸函數情況
3.2.3 強凸函數情況
3.2.4 收斂速率的比較
3.3 下降法:收斂性
3.4 線搜索法:方向選擇
3.5 線搜索法:步長選擇
3.6 收斂到近似的二階必要點
3.7 鏡像下降
3.8 KL和PL屬性
註釋和參考
習題
第4章 使用動量的梯度法
4.1 來自微分方程的啟發
4.2 Nesterov法:凸二次方程
4.3 強凸函數的收斂性
4.4 弱凸函數的收斂性
4.5 共軛梯度法
4.6 收斂速率的下界
註釋和參考
習題
第5章 隨機梯度法
5.1 示例與啟發
5.1.1 雜訊梯度
5.1.2 增量梯度法
5.1.3 分類和感知器
5.1.4 經驗風險最小化
5.2 隨機性和步長:深入分析
5.2.1 示例:計算均值
5.2.2 隨機Kaczmarz法
5.3 收斂分析的關鍵假設
5.3.1 案例1:有界梯度(Lg=0)
5.3.2 案例2:隨機Kaczmarz(B=0,Lg=0)
5.3.3 案例3:加性高斯雜訊
5.3.4 案例4:增量梯度
5.4 收斂分析
5.4.1 案例1:Lg=0
5.4.2 案例2:B=0
5.4.3 案例3:B和Lg都非零
5.5 實施方面的問題
5.5.1 輪次
5.5.2 迷你批量處理
5.5.3 使用動量加速
註釋和參考
習題
第6章 坐標下降法
6.1 機器學習中的坐標下降法
6.2 平滑凸函數的坐標下降法
6.2.1 利普希茨常數
6.2.2 隨機坐標下降法:有放回抽樣
6.2.3 循環坐標下降法
6.2.4 隨機排列坐標下降法:無放回抽樣
6.3 塊坐標下降法
註釋和參考
習題
第7章 約束優化的一階方法
7.1 最優性條件
7.2 歐幾里得投影
7.3 投影梯度演算法
7.3.1 一般情況:一種短步法
7.3.2 一般情況:回溯法
7.3.3 平滑強凸情形
7.3.4 動量變體
7.3.5 其他搜索方向
7.4 條件梯度(Frank-Wolfe)法
註釋和參考
習題
第8章 非平滑函數和次梯度
8.1 次梯度和次微分
8.2 次微分和方嚮導數
8.3 次微分運算
8.4 凸集和凸約束優化
8.5 複合非平滑函數的最優性條件
8.6 近端運算元和莫羅包絡
註釋和參考
習題
第9章 非平滑優化方法
9.1 次梯度下降
9.2 次梯度法
9.3 正則化優化的近端梯度法
9.4 結構化非平滑函數的近端坐標下降法
9.5 近端點法
註釋和參考
習題
第10章 對偶性和演算法
10.1 二次懲罰函數
10.2 拉格朗日函數和對偶性
10.3 一階最優性條件
10.4 強對偶
10.5 對偶演算法
10.5.1 對偶次梯度
10.5.2 增廣拉格朗日函數法
10.5.3 交替方向乘數法
10.6 對偶演算法的一些應用
10.6.1 共識優化
10.6.2 效用最大化
10.6.3 線性和二次規劃
註釋和參考
習題
第11章 微分和伴隨
11.1 向量函數嵌套組合的鏈式法則
11.2 伴隨