暂无商品咨询信息 [发表商品咨询]
风险聚焦核心:重点解析幻觉、注入、越权、泄露、毒性内容等安全问题。
体系全面完整:覆盖数据、训练、推理、权限、审计、合规等安全关键环节。
技术解析深入:系统讲解SFT、RLHF、Constitutional AI等对齐方法。
突出实战落地:结合工具链、防护方案与部署案例,强调工程实践价值。
本书系统梳理了大语言模型(LLM,简称大模型)在安全治理与行为对齐方面的核心原理、关键技术与工程实践路径,聚焦构建可信、可控的大模型人工智能系统,以应对当前生成式AI 在安全性、合规性和产业落地中的重大挑战。
本书共分为10 章,围绕模型风险识别、语义行为对齐、内容生成管控、训练数据治理、系统级防护、安全评估指标、合规审查流程与行业解决方案八大技术主线,构建出一套完整的大模型安全体系。全书首先深入剖析大模型在语义安全、系统防护、行为不可预测性等方面的挑战,系统介绍监督微调、RLHF、Constitutional AI 等对齐技术,幵结合内容安全机制与训练数据治理提供工程实现路径。随后,聚焦模型推理部署的系统安全,覆盖权限控制、日志审计、接口隔离、伦理合规等维度,强调“可控性”在工业场景下的实现策略。最后聚焦安全评估工具链、开源平台实践,以及在教育、医疗、法律等高敏行业中的落地方案,为构建可信赖的AI 系统提供工程蓝图。
本书兼具系统性与实战性,既有对前沿理论方法的深入剖析,又涵盖可复制的工程实现路径,同时,随书赠送案例代码、授课用PPT 等学习资源(扫封底二维码获取),适合从事人工智能研发、安全工程、合规治理与技术管理的科研人员、工程师、企业技术负责人及政策制定者参考阅读。
杨哲超
现任苏州映谷科技有限公司副总裁,曾任中国电信研究院AI研发中心副主任、阿里云高级产品专家、微软亚太研发集团技术经理。曾主导中国电信大模型安全评测平台研发,首创公安智能决策系统等项目,研究成果覆盖通信、云计算及政企核心场景,兼具战略研发与行业落地影响力。
赵治斌
中国计算机学会高级会员、工信部“高级物联网工程师”、全国职业院校技能大赛裁判员。从事人工智能教学教研二十余年,专注大模型技术与AI安全研究,主持省市级课题12项,发表论文10篇。
前言
第 1 章 大模型安全概述
1.1 大模型面临的核心安全问题
1.1.1 语义安全vs 系统安全
1.1.2 大模型幻觉现象:生成与事实不一致
1.1.3 Prompt 注入与指令滥用
1.1.4 模型行为的不可预测性
1.2 安全分类体系与威胁建模
1.2.1 OWASP for LLMs 安全分类标准
1.2.2 STRIDE
1.2.3 微调阶段的风险
1.2.4 推理服务阶段的风险
1.3 大模型安全事件分析
1.3.1 ChatGPT 越权回答案例
1.3.2 Facebook LLaMA 泄密事件
1.3.3 国内模型生成违法内容审查失败
1.3.4 社交媒体中的Prompt 投毒实例
1.4 安全治理的技术构成与最终目标
1.4.1 安全治理vs 对齐机制
1.4.2 安全目标矩阵:无害、有用、可控
1.4.3 多层防线:数据、模型、接口
1.4.4 安全治理的评价指标体系
第 2 章 大模型对齐技术原理
2.1 大模型对齐技术基础知识
2.1.1 人类意图建模的模糊性
2.1.2 RICE 大模型对齐的基本流程
2.1.3 模型能力增强vs 风险增强
2.1.4 对齐失败的后果分类
2.2 对齐方法一:监督微调
2.2.1 数据格式与构造方法
2.2.2 对话语料处理与多轮嵌套
2.2.3 多任务对齐与能力迁移
2.2.4 典型SFT pipeline 实现
2.3 对齐方法二:人类反馈强化学习
2.3.1 奖励模型设计原理
2.3.2 PPO 训练流程详解
2.3.3 训练数据采集与标注平台
2.4 对齐方法三:Constitutional AI 与自动对齐
2.4.1 宪法规则模板设计
2.4.2 模型自我反馈机制构建
2.4.3 AutoAlign 与AutoDPO 方法
第 3 章 大模型内容安全治理机制
3.1 模型输出过滤与毒性检测
3.1.1 毒性内容定义与分级
3.1.2 过滤模型构建与部署
3.1.3 生成文本后处理机制
3.1.4 第三方安全接口接入
3.2 Prompt 输入安全防御机制
3.2.1 Prompt 注入类型与原理
3.2.2 正则化检测与模板化防御
3.2.3 Rebuff、Boxer 等防护工具使用
3.2.4 Prompt 越权检测与上下文污染隔离
3.3 模型幻觉与事实校验技术
3.3.1 幻觉类型划分与识别指标
3.3.2 外部知识增强检索机制
3.3.3 事实性评估模型构建
3.4 多模态内容风险识别与过滤
3.4.1 多模态模型的风险传播路径
3.4.2 图像文本联合风险检测机制
第 4 章 训练数据安全与对齐数据构建
4.1 数据来源合规性与去偏处理
4.1.1 开源数据审查清单构建
4.1.2 有害数据的清洗与识别算法
4.1.3 长尾有害片段检测与切除
4.1.4 多语言毒性文本识别工具
4.2 对齐训练数据构造方法
4.2.1 问答格式标注与用户偏好建模
4.2.2 多轮对话生成规则设计
4.2.3 合成偏好对比数据与打分策略
4.2.4 人机混合生成数据的风险控制
4.3 数据打标签与人类反馈采集
4.3.1 成本可控的数据标注平台搭建
4.3.2 HITL 流程自动化接口设计
4.3.3 “一致性+ 价值判断”双评分体系
4.3.4 多标注员评分整合与投票机制
第 5 章 推理部署中的安全风险与防护机制
5.1 推理架构设计与风险暴露点
5.1.1 单节点与分布式推理架构安全对比
5.1.2 GPU 资源调度中的越权访问问题
5.1.3 模型副本同步与模型泄露风险
5.1.4 多用户服务中的上下文污染隔离
5.2 API 服务接口安全策略
5.2.1 OAuth 2.0 授权机制与访问令牌管理
5.2.2 JWT 签名验证与Token 生命周期控制
5.2.3 API 速率限制与服务拒绝防护
5.2.4 多租户接口隔离与模型权限绑定
5.3 模型调用审计与行为记录
5.3.1 日志数据结构设计与存储管理
5.3.2 模型调用日志的多维索引与溯源
5.3.3 高风险内容的行为回放机制
5.3.4 模型输出自动标签与安全评分系统
5.4 推理安全优化实战案例
5.4.1 基于Triton 的安全部署模板
5.4.2 Kubernetes 中LLM 安全推理管控方案
5.4.3 零信任架构下的模型隔离部署
5.4.4 安全预处理与后处理服务链设计
第 6 章 权限控制与用户安全策略设计
6.1 用户权限模型构建
6.1.1 RBAC 与ABAC 在模型系统中的应用
6.1.2 按用户角色划分模型功能
6.1.3 多层级Prompt 权限管理
6.1.4 基于内容风险等级的调用权限控制
6.2 输入内容的来源与可信度评估
6.2.1 输入内容身份绑定机制
6.2.2 Prompt 日志可信存证与归档
6.2.3 输入审查规则动态加载机制
6.2.4 上下文联动验证机制设计
6.3 用户操作审计与追责机制
6.3.1 用户行为指纹机制
6.3.2 高风险调用报警与干预机制
6.3.3 触发型行为溯源系统
6.3.4 用户审计日志
6.4 实战项目中的权限配置方法
6.4.1 SaaS 系统中多角色权限配置
6.4.2 企业内对接LDAP/SSO 进行身份统一
6.4.3 多服务环境中的权限同步机制
6.4.4 针对敏感行业的白名单机制设计
第 7 章 大模型法律法规与伦理合规落地
7.1 全球大模型法律法规综述
7.1.1 欧盟AI Act 对生成式AI 的规范条款
7.1.2 美国NIST AI RMF 框架
7.1.3 中国《生成式人工智能服务管理暂行办法》细则
7.1.4 日本、印度、新加坡AI 监管策略简介
7.2 合规性检查点设计与实施
7.2.1 模型输入输出审计机制要求
7.2.2 内容分级与发布责任归属策略
7.3 模型伦理审查与价值一致性原则
7.3.1 伦理审查清单
7.3.2 多价值体系间的冲突协调策略
第 8 章 安全与对齐效果的测量与评价
8.1 对齐质量的评估指标体系
8.1.1 HHH 三维标准
8.1.2 人工偏好与机器偏好一致性指标
8.2 安全性评价方法
8.2.1 毒性检测覆盖率评估
8.2.2 Prompt 越权测试指标构建
8.2.3 幻觉率计算方法
8.3 对抗测试与红队攻防
8.3.1 红队测试框架设计原则
8.3.2 攻防样例构造与注入分析
8.3.3 模型鲁棒性测试与逃逸检测
8.4 自动化评测工具链实战
8.4.1 OpenAI Evals 工具使用
8.4.2 Anthropic 安全评估体系介绍
第 9 章 安全对齐工具链与开源系统实战
9.1 微调与RLHF 工具链
9.1.1 Huggingface + TRL 对齐微调全流程
9.1.2 DeepSpeed 在大模型对齐中的加速方案
9.1.3 Reward Model 构建实战与调参策略
9.1.4 RLHF 训练中安全防护点插入方式
9.2 安全防御模块实战
9.2.1 使用Rebuff 防止Prompt 注入
9.2.2 接入OpenAI Moderation API 进行输出过滤
9.2.3 模型“水印”机制检测与追踪
9.2.4 LangChain + Guardrails 构建对话控制系统
9.3 安全数据采集与评估集构建
9.3.1 使用DPO 标注数据构建对齐评估集
9.3.2 多语言毒性数据收集与标签分类
9.4 从零构建一个安全可控的开源LLM 系统
9.4.1 LLaMA 模型微调并集成审查接口
9.4.2 Web+API 部署与接口权限绑定
9.4.3 发布、运维、灰度管理的安全实战流程
第 10 章 面向行业的安全可控大模型解决方案
10.1 教育行业:防止误导与偏见内容生成
10.1.1 教育对齐数据构造
10.1.2 教育答题系统的安全规则模板
10.1.3 教育问答系统部署案例解析
10.2 医疗行业:风险文本生成与合规责任
10.2.1 医疗本体约束下的输出控制
10.2.2 医疗问答中的风险提示机制
10.2.3 医疗合规与模型责任划分
10.3 法律行业:合规文本生成与责任可追溯性
10.3.1 法律数据精标体系设计
10.3.2 法律模型责任链
| 基本信息 | |
|---|---|
| 出版社 | 机械工业出版社 |
| ISBN | 9787111807421 |
| 条码 | 9787111807421 |
| 编者 | 杨哲超 赵治斌 著 |
| 译者 | -- |
| 出版年月 | 2026-05-01 00:00:00.0 |
| 开本 | 16开 |
| 装帧 | 平装 |
| 页数 | 254 |
| 字数 | 354 |
| 版次 | 1 |
| 印次 | 1 |
| 纸张 | 一般胶版纸 |
暂无商品评论信息 [发表商品评论]
暂无商品咨询信息 [发表商品咨询]