幫助中心 | 我的帳號 | 關於我們

實戰大模型安全(從對齊技術到系統治理)/AIGC與大模型技術叢書

  • 作者:編者:楊哲超//趙治斌|責編:丁倫//楊源
  • 出版社:機械工業
  • ISBN:9787111807421
  • 出版日期:2026/05/01
  • 裝幀:平裝
  • 頁數:254
人民幣:RMB 79 元      售價:
放入購物車
加入收藏夾

內容大鋼
    本書系統梳理了大語言模型(LLM,簡稱大模型)在安全治理與行為對齊方面的核心原理、關鍵技術與工程實踐路徑,聚焦構建可信、可控的大模型人工智慧系統,以應對當前生成式AI在安全性、合規性和產業落地中的重大挑戰。
    本書共分為10章,圍繞模型風險識別、語義行為對齊、內容生成管控、訓練數據治理、系統級防護、安全評估指標、合規審查流程與行業解決方案八大技術主線,構建出一套完整的大模型安全體系。全書首先深入剖析大模型在語義安全、系統防護、行為不可預測性等方面的挑戰,系統介紹監督微調、RLHF、Constitutional AI等對齊技術,幵結合內容安全機制與訓練數據治理提供工程實現路徑。隨後,聚焦模型推理部署的系統安全,覆蓋許可權控制、日誌審計、介面隔離、倫理合規等維度,強調「可控性」在工業場景下的實現策略。最後聚焦安全評估工具鏈、開源平台實踐,以及在教育、醫療、法律等高敏行業中的落地方案,為構建可信賴的AI系統提供工程藍圖。
    本書兼具系統性與實戰性,既有對前沿理論方法的深入剖析,又涵蓋可複製的工程實現路徑,同時,隨書贈送案例代碼、授課用PPT等學習資源(掃封底二維碼獲取),適合從事人工智慧研發、安全工程、合規治理與技術管理的科研人員、工程師、企業技術負責人及政策制定者參考閱讀。

作者介紹
編者:楊哲超//趙治斌|責編:丁倫//楊源

目錄
前言
第1章  大模型安全概述
  1.1  大模型面臨的核心安全問題
    1.1.1  語義安全vs系統安全
    1.1.2  大模型幻覺現象:生成與事實不一致
    1.1.3  Prompt注入與指令濫用
    1.1.4  模型行為的不可預測性
  1.2  安全分類體系與威脅建模
    1.2.1  OWASPforLLMs安全分類標準
    1.2.2  STRIDE
    1.2.3  微調階段的風險
    1.2.4  推理服務階段的風險
  1.3  大模型安全事件分析
    1.3.1  ChatGPT越權回答案例
    1.3.2  FacebookLLaMA泄密事件
    1.3.3  國內模型生成違法內容審查失敗
    1.3.4  社交媒體中的Prompt投毒實例
  1.4  安全治理的技術構成與最終目標
    1.4.1  安全治理vs對齊機制
    1.4.2  安全目標矩陣:無害、有用、可控
    1.4.3  多層防線:數據、模型、介面
    1.4.4  安全治理的評價指標體系
第2章  大模型對齊技術原理
  2.1  大模型對齊技術基礎知識
    2.1.1  人類意圖建模的模糊性
    2.1.2  RICE大模型對齊的基本流程
    2.1.3  模型能力增強vs風險增強
    2.1.4  對齊失敗的後果分類
  2.2  對齊方法一:監督微調
    2.2.1  數據格式與構造方法
    2.2.2  對話語料處理與多輪嵌套
    2.2.3  多任務對齊與能力遷移
    2.2.4  典型SFTpipeline實現
  2.3  對齊方法二:人類反饋強化學習
    2.3.1  獎勵模型設計原理
    2.3.2  PPO訓練流程詳解
    2.3.3  訓練數據採集與標注平台
  2.4  對齊方法三:ConstitutionalAI與自動對齊
    2.4.1  憲法規則模板設計
    2.4.2  模型自我反饋機制構建
    2.4.3  AutoAlign與AutoDPO方法
第3章  大模型內容安全治理機制
  3.1  模型輸出過濾與毒性檢測
    3.1.1  毒性內容定義與分級
    3.1.2  過濾模型構建與部署
    3.1.3  生成文本后處理機制
    3.1.4  第三方安全介面接入
  3.2  Prompt輸入安全防禦機制
    3.2.1  Prompt注入類型與原理
    3.2.2  正則化檢測與模板化防禦

    3.2.3  Rebuff、Boxer等防護工具使用
    3.2.4  Prompt越權檢測與上下文污染隔離
  3.3  模型幻覺與事實校驗技術
    3.3.1  幻覺類型劃分與識別指標
    3.3.2  外部知識增強檢索機制
    3.3.3  事實性評估模型構建
  3.4  多模態內容風險識別與過濾
    3.4.1  多模態模型的風險傳播路徑
    3.4.2  圖像文本聯合風險檢測機制
第4章  訓練數據安全與對齊數據構建
  4.1  數據來源合規性與去偏處理
    4.1.1  開源數據審查清單構建
    4.1.2  有害數據的清洗與識別演算法
    4.1.3  長尾有害片段檢測與切除
    4.1.4  多語言毒性文本識別工具
  4.2  對齊訓練數據構造方法
    4.2.1  問答格式標注與用戶偏好建模
    4.2.2  多輪對話生成規則設計
    4.2.3  合成偏好對比數據與打分策略
    4.2.4  人機混合生成數據的風險控制
  4.3  數據打標籤與人類反饋採集
    4.3.1  成本可控的數據標注平台搭建
    4.3.2  HITL流程自動化介面設計
    4.3.3  「一致性+價值判斷」雙評分體系
    4.3.4  多標注員評分整合與投票機制
第5章  推理部署中的安全風險與防護機制
  5.1  推理架構設計與風險暴露點
    5.1.1  單節點與分散式推理架構安全對比
    5.1.2  GPU資源調度中的越權訪問問題
    5.1.3  模型副本同步與模型泄露風險
    5.1.4  多用戶服務中的上下文污染隔離
  5.2  API服務介面安全策略
      5.2.1 OAuth2.0  授權機制與訪問令牌管理
    5.2.2  JWT簽名驗證與Token生命周期控制
    5.2.3  API速率限制與服務拒絕防護
    5.2.4  多租戶介面隔離與模型許可權綁定
  5.3  模型調用審計與行為記錄
    5.3.1  日誌數據結構設計與存儲管理
    5.3.2  模型調用日誌的多維索引與溯源
    5.3.3  高風險內容的行為回放機制
    5.3.4  模型輸出自動標籤與安全評分系統
  5.4  推理安全優化實戰案例
    5.4.1  基於Triton的安全部署模板
    5.4.2  Kubernetes中LLM安全推理管控方案
    5.4.3  零信任架構下的模型隔離部署
    5.4.4  安全預處理與后處理服務鏈設計
第6章  許可權控制與用戶安全策略設計
  6.1  用戶許可權模型構建
    6.1.1  RBAC與ABAC在模型系統中的應用
    6.1.2  按用戶角色劃分模型功能

    6.1.3  多層級Prompt許可權管理
    6.1.4  基於內容風險等級的調用許可權控制
  6.2  輸入內容的來源與可信度評估
    6.2.1  輸入內容身份綁定機制
    6.2.2  Prompt日誌可信存證與歸檔
    6.2.3  輸入審查規則動態載入機制
    6.2.4  上下文聯動驗證機制設計
  6.3  用戶操作審計與追責機制
    6.3.1  用戶行為指紋機制
    6.3.2  高風險調用報警與干預機制
    6.3.3  觸髮型行為溯源系統
    6.3.4  用戶審計日誌
  6.4  實戰項目中的許可權配置方法
    6.4.1  SaaS系統中多角色許可權配置
    6.4.2  企業內對接LDAP/SSO進行身份統一
    6.4.3  多服務環境中的許可權同步機制
    6.4.4  針對敏感行業的白名單機制設計
第7章  大模型法律法規與倫理合規落地
  7.1  全球大模型法律法規綜述
    7.1.1  歐盟AIAct對生成式AI的規範條款
    7.1.2  美國NISTAIRMF框架
    7.1.3  中國《生成式人工智慧服務管理暫行辦法》細則
    7.1.4  日本、印度、新加坡AI監管策略簡介
  7.2  合規性檢查點設計與實施
    7.2.1  模型輸入輸出審計機制要求
    7.2.2  內容分級與發布責任歸屬策略
  7.3  模型倫理審查與價值一致性原則
    7.3.1  倫理審查清單
    7.3.2  多價值體系間的衝突協調策略
第8章  安全與對齊效果的測量與評價
  8.1  對齊質量的評估指標體系
    8.1.1  HHH三維標準
    8.1.2  人工偏好與機器偏好一致性指標
  8.2  安全性評價方法
    8.2.1  毒性檢測覆蓋率評估
    8.2.2  Prompt越權測試指標構建
    8.2.3  幻覺率計算方法
  8.3  對抗測試與紅隊攻防
    8.3.1  紅隊測試框架設計原則
    8.3.2  攻防樣例構造與注入分析
    8.3.3  模型魯棒性測試與逃逸檢測
  8.4  自動化評測工具鏈實戰
    8.4.1  OpenAIEvals工具使用
    8.4.2  Anthropic安全評估體系介紹
第9章  安全對齊工具鏈與開源系統實戰
  9.1  微調與RLHF工具鏈
    9.1.1  Huggingface+TRL對齊微調全流程
    9.1.2  DeepSpeed在大模型對齊中的加速方案
    9.1.3  RewardModel構建實戰與調參策略
    9.1.4  RLHF訓練中安全防護點插入方式

  9.2  安全防禦模塊實戰
    9.2.1  使用Rebuff防止Prompt注入
    9.2.2  接入OpenAIModerationAPI進行輸出過濾
    9.2.3  模型「水印」機制檢測與追蹤
    9.2.4  LangChain+Guardrails構建對話控制系統
  9.3  安全數據採集與評估集構建
    9.3.1  使用DPO標注數據構建對齊評估集
    9.3.2  多語言毒性數據收集與標籤分類
  9.4  從零構建一個安全可控的開源LLM系統
    9.4.1  LLaMA模型微調並集成審查介面
    9.4.2  Web+API部署與介面許可權綁定
    9.4.3  發布、運維、灰度管理的安全實戰流程
第10章  面向行業的安全可控大模型解決方案
  10.1  教育行業:防止誤導與偏見內容生成
    10.1.1  教育對齊數據構造
    10.1.2  教育答題系統的安全規則模板
    10.1.3  教育問答系統部署案例解析
  10.2  醫療行業:風險文本生成與合規責任
    10.2.1  醫療本體約束下的輸出控制
    10.2.2  醫療問答中的風險提示機制
    10.2.3  醫療合規與模型責任劃分
  10.3  法律行業:合規文本生成與責任可追溯性
    10.3.1  法律數據精標體系設計
    10.3.2  法律模型責任鏈

  • 商品搜索:
  • | 高級搜索
首頁新手上路客服中心關於我們聯絡我們Top↑
Copyrightc 1999~2008 美商天龍國際圖書股份有限公司 臺灣分公司. All rights reserved.
營業地址:臺北市中正區重慶南路一段103號1F 105號1F-2F
讀者服務部電話:02-2381-2033 02-2381-1863 時間:週一-週五 10:00-17:00
 服務信箱:bookuu@69book.com 客戶、意見信箱:cs@69book.com
ICP證:浙B2-20060032