暂无商品咨询信息 [发表商品咨询]
本书聚焦于自然语言处理模型在分布外数据上泛化能力的提升这一关键挑战。全书从理论基础、技术方法和现实应用三个维度系统地展开论述。理论层面,清晰阐释了分布外泛化的核心概念及其机器学习原理;技术层面,详细剖析了包括数据增强、对抗训练、因果推断等在内的分布外泛化增强方法,并深入分析了大语言模型特有的分布外泛化问题及其伴随的社会公平性挑战;应用层面,针对自然语言处理中的时序迁移、任务迁移和语言迁移三大应用场景,探讨了模型面临的泛化瓶颈,并提出了切实可行的优化方案。本书旨在为相关领域的研究者与从业者提供兼具学术前沿洞见与工程实践指导的系统性参考,助力应对人工智能模型分布外泛化的核心挑战。
张胜,国防科技大学系统工程学院助理研究员,主要从事指挥控制技术、大语言模型和智能体等方向的研究。在ACL、SIGIR、EMNLP发表学术论文30余篇,被引用次数800余次,申请和授权专利10余项,主持和参与多个国家级、省部级科研项目。刘姗姗,国防科技大学第六十三研究所助理研究员,主要从事领域自适应、虚假信息检测、大语言模型和智能体等方向的研究。在国内外核心期刊及国际会议上发表SCI/EI论文20余篇,申请和授权专利10余项,主持和参与多个国家级、省部级科研项目。朱先强,国防科技大学系统工程学院副研究员,硕士生导师,美国天普大学访问学者,任中国指挥与控制学会智能指挥控制与系统工程专委会委员,长期从事网络化数据分析、智能决策技术研究。主持国家自科基金、863、科技委创新特区及重点工程等国家、军队级项目40余项,担任国家高新工程等多个重点型号项目的主任设计师。指导硕士、博士10余人,在国内外核心期刊及国际会议上发表SCI/EI论文50余篇,出版《指挥控制技术》《复杂网络:结构与动态演化分析》《遥感大数据检索》《军事建模与辅助决策研究》等专著5部,获中国地理学会特等奖1项、军队科技进步三等奖2项、中国指挥与控制学会一等奖、二等奖各1项,授权发明专利30余项。
第1章 绪论 1
1.1 分布外泛化的研究背景与意义 1
1.1.1 研究背景 1
1.1.2 研究意义 3
1.2 国内外研究进展及现状 4
1.2.1 分布外泛化 4
1.2.2 领域迁移 6
1.2.3 算法公平性 13
1.2.4 研究现状小结 14
1.3 全书主要内容及组织结构 15
本章参考文献 17
第2章 机器学习的基础理论 30
2.1 机器学习的分类 30
2.1.1 有监督学习 30
2.1.2 无监督学习 33
2.1.3 半监督学习 33
2.1.4 强化学习 35
2.2 神经网络模型 37
2.2.1 全连接神经网络 37
2.2.2 卷积神经网络 48
2.2.3 循环神经网络 50
2.2.4 自注意力神经网络 55
2.3 本章小结 58
本章参考文献 58
第3章 自然语言处理的基础 63
3.1 文本表示与语言模型 63
3.1.1 独热表示 63
3.1.2 分布式词向量表示 64
3.1.3 神经网络语言模型 64
3.1.4 Word2Vec模型 66
3.1.5 基于上下文语义的表示 68
3.1.6 句向量模型 69
3.2 预训练语言模型 71
3.2.1 GPT系列 71
3.2.2 BERT系列 74
3.2.3 ELECTRA系列 77
3.2.4 LLaMA系列 78
3.2.5 Claude系列 78
3.2.6 Gemini系列 79
3.2.7 通义千问系列 80
3.2.8 ChatGLM系列 81
3.2.9 Baichuan系列 82
3.2.10 DeepSeek系列 82
3.3 自然语言处理常见任务 84
3.3.1 工具性自然语言处理任务 84
3.3.2 应用性自然语言处理任务 86
3.4 本章小结 91
本章参考文献 91
第4章 分布外泛化的相关理论 99
4.1 分布外泛化相关概念 99
4.1.1 泛化 100
4.1.2 分布外泛化 102
4.1.3 数据集偏移 104
4.1.4 深度学习中的捷径学习 105
4.2 多领域学习 107
4.2.1 多任务学习 107
4.2.2 迁移学习 108
4.2.3 元学习 110
4.3 领域自适应与领域泛化 114
4.3.1 领域自适应 114
4.3.2 领域泛化 115
4.4 分布外泛化的相关总结 116
4.4.1 不同学习类型比较 116
4.4.2 相近概念辨析 117
4.4.3 分布外泛化问题产生的原因 118
4.4.4 本书的研究限定与前提 119
4.5 本章小结 119
本章参考文献 119
第5章 常见分布外泛化增强方法 123
5.1 基于样本权重的增强方法 123
5.2 基于数据增强的方法 124
5.2.1 单词级数据增强方法 124
5.2.2 句子级数据增强方法 125
5.2.3 基于混合的数据增强方法 126
5.2.4 远程监督学习方法 127
5.3 基于先预训练后微调的增强方法 127
5.3.1 常见预训练任务模型 128
5.3.2 常见微调方法 130
5.3.3 迁移的正则化设计 132
5.4 基于知识蒸馏的增强方法 133
5.5 基于不变性预测的增强方法 134
5.6 基于特征对齐的增强方法 136
5.6.1 子空间对齐方法 136
5.6.2 协方差对齐方法 137
5.6.3 基于最大均值差异的方法 138
5.6.4 基于领域分离网络的方法 141
5.7 基于生成对抗网络的增强方法 142
5.7.1 基于领域对抗神经网络方法 144
5.7.2 基于动态对抗自适应网络方法 146
5.8 基于分布鲁棒性优化的增强方法 147
5.8.1 沃瑟斯坦鲁棒性 147
5.8.2 KL-散度鲁棒性 148
5.8.3 分布鲁棒性优化的优缺点 149
5.9 基于因果推断的增强方法 149
5.10 本章小结 151
本章参考文献 152
第6章 大语言模型的分布外泛化 157
6.1 大语言模型语境学习与分布外泛化 157
6.1.1 零样本学习 158
6.1.2 少样本提示学习 159
6.1.3 思维链提示学习 161
6.1.4 大海捞针测试 162
6.1.5 基于增强检索生成的方法 163
6.1.6 基于自我反思的方法 165
6.2 大语言模型微调与分布外泛化 166
6.2.1 适配器微调 166
6.2.2 低秩自适应 168
6.2.3 前缀微调 168
6.3 大语言模型的对齐 169
6.3.1 人类反馈强化学习 170
6.3.2 近端策略优化算法 172
6.4 大语言模型的智能体建模与具身智能 172
6.4.1 大语言模型智能体建模 172
6.4.2 大语言模型驱动的具身智能 177
6.5 大语言模型泛化性能分析 179
6.6 本章小结 181
本章参考文献 182
第7章 算法公平性问题 185
7.1 公平性的定义及类别 185
7.2 自然语言处理任务的公平性问题 187
7.3 大语言模型的公平性问题 189
7.4 算法公平性问题产生的原因 190
7.5 案例分析:预训练语言模型的社会语言学分析 191
7.5.1 社会语言学偏差探究任务 192
7.5.2 探究评估任务实验设置 192
7.5.3 分析一:人类社会语言学差异分析 196
7.5.4 分析二:预训练语言模型社会语言学公平性分析 197
7.5.5 分析三:预训练语言模型与人类间的社会语言学差异分析 198
7.5.6 分析小结 200
7.6 提升算法公平性的典型方法 201
7.6.1 数据增强法 201
7.6.2 组别权重法 201
7.6.3 正则化约束 202
7.6.4 对抗学习 203
7.6.5 对比学习 203
7.6.6 强化学习 204
7.7 本章小结 204
本章参考文献 204
第8章 时序迁移下的模型分布外泛化增强方法 210
8.1 在线系统中的时序迁移 210
8.2 时序迁移的形式化定义 211
8.3 基于动态知识蒸馏的跨时段自动问答方法 212
8.3.1 自动问答与大模型泛化相关的工作 212
8.3.2 基于知识蒸馏的模型分布外泛化增强架构 215
8.3.3 学生模型:基于多尺度注意力交互网络的在线中文医疗问答 216
8.3.4 教师模型:基于自注意力机制的大语言模型 223
8.3.5 蒸馏衰减系数与优化目标 223
8.3.6 动态采样蒸馏方法 225
8.3.7 多学生模型集成学习 225
8.3.8 实验 226
8.3.9 分析讨论 232
8.4 本章小结 235
本章参考文献 236
第9章 任务迁移下的模型分布外泛化增强方法 241
9.1 多任务学习中的任务迁移 241
9.2 任务迁移的形式化定义 243
9.3 多任务学习的损失函数及采样策略 243
9.3.1 多任务学习的损失函数 244
9.3.2 多任务学习的采样策略 245
9.4 基于最坏情况感知的多任务自动课程学习方法 248
9.4.1 基于最坏情况感知的自动课程学习架构 249
9.4.2 最坏情况感知的最小化算法 249
9.4.3 多任务学习模型 252
9.4.4 多任务模型的迁移学习 255
9.4.5 实验 255
9.5 本章小结 264
本章参考文献 264
第10章 语言迁移下的模型分布外泛化增强方法 267
10.1 自然语言处理中的语言迁移 267
10.2 语言迁移的形式化定义 268
10.3 面向有限标记样本的跨语言文章重新排序方法 269
10.3.1 跨语言文章重新排序任务定义 270
10.3.2 基于扩展预训练的跨语言文章重新排序模型 271
10.3.3 基于数据增强的跨语言文章重新排序模型 275
10.3.4 实验与案例分析 277
10.4 基于知识蒸馏和对抗学习的跨语言文章重新排序方法 284
10.4.1 理论分析 285
10.4.2 基于知识蒸馏和对抗学习的跨语言文章重新排序模型 287
10.4.3 实验结果与分析 290
10.4.4 小结 295
10.5 基于最差组别感知的跨语言情感分类方法 296
10.5.1 语言迁移的形式化定义 297
10.5.2 基于自动课程学习的模型架构 298
10.5.3 最差组别感知的最小化算法 298
10.5.4 情感分类模型 301
10.5.5 跨语言迁移学习 302
10.5.6 实验设置 302
10.5.7 实验结果 304
10.5.8 分析 305
10.6 本章小结 312
本章参考文献 312
第11章 总结与展望 318
11.1 全书总结 318
11.2 研究展望 320
11.2.1 分布外泛化与模型可解释性 320
11.2.2 分布外泛化与模型安全性 321
11.2.3 分布外泛化测评基准的构建 322
11.2.4 分布外泛化在管理科学与工程领域的潜在应用前景 323
本章参考文献 324
| 基本信息 | |
|---|---|
| 出版社 | 电子工业出版社 |
| ISBN | 9787121526251 |
| 条码 | 9787121526251 |
| 编者 | 张胜 著 |
| 译者 | |
| 出版年月 | 2026-05-01 00:00:00.0 |
| 开本 | 其他 |
| 装帧 | 平装 |
| 页数 | 336 |
| 字数 | |
| 版次 | 1 |
| 印次 | 1 |
| 纸张 | |
暂无商品评论信息 [发表商品评论]
暂无商品咨询信息 [发表商品咨询]