暂无商品咨询信息 [发表商品咨询]
ChatGPT 引发 AI 热潮,本书从传统自然语言处理讲起,梳理大语言模型发展脉络,解析神经网络、Transformer 等核心技术,涵盖预训练、能力涌现等关键内容,兼顾原理与应用,助初学者入门、从业者进阶,是理解大语言模型的实用指南。
本书将带读者走进大语言模型的神奇世界,即使读者没有深厚的技术背景,也能轻松理解。本书首先从基础概念讲起,详细介绍大语言模型及其技术发展脉络。接着探讨大语言模型在日常生活中的广泛应用,比如智能客服、文本自动生成、语言翻译等。此外,本书还会客观地分析大语言模型的局限性和可能面临的挑战,例如准确性问题、伦理考虑等,帮助读者形成全面而理性的认识。最后,本书还会展望大语言模型的未来发展趋势,探讨它们将如何为读者所在的行业赋能。本书适合对新技术充满好奇的普通读者,以及希望跟上时代步伐的知识追求者阅读。
目 录
序
前言
第 1 章 早期的神经语言模型 1
1.1 神经网络模型之前的时代 2
1.1.1 基于规则的方法面临的困难 5
1.1.2 借助统计方法的力量 6
1.1.3 朴素统计模型的极限 8
1.2 神经网络如何理解语言 10
1.2.1 化解统计方法的维度灾难 11
1.2.2 神经网络模型如何学习 13
1.2.3 困惑度——量化评估语言模型的预测能力17
1.2.4 词嵌入——从词汇到可计算的数值向量 19
第 2 章 深度学习时代的自然语言处理 25
2.1 擅长处理文本序列的循环神经网络 27
2.1.1 保持记忆的循环连接 28
2.1.2 控制记忆的门控单元 29
2.1.3 自然语言的编码器和解码器 33
2.2 Transformer“只需要注意力” 40
2.2.1 注意力机制的起源 42
2.2.2 “只需要注意力” 44
2.2.3 像检索数据库一样查看记忆 46
2.2.4 使用 Transformer 对语言进行编码和解码49
第 3 章 预训练语言模型的兴起 53
3.1 通过预训练提升语言模型能力 54
3.1.1 预训练——视觉深度学习模型的成熟经验54
VIII
3.1.2 第一代 GPT 模型 56
3.1.3 GPT 和 BERT——选择不同道路 60
3.2 语言模型如何胜任多种任务 67
3.2.1 多任务模型先驱的启示 68
3.2.2 GPT-2 模型 71
3.2.3 适用于多种语言的字节对编码 75
3.2.4 高质量的 WebText 数据集 80
第 4 章 大语言模型能力涌现 87
4.1 学会如何学习——元学习和语境学习能力88
4.1.1 GPT-3 模型 92
4.1.2 稀疏注意力——大模型的高效注意力机制94
4.1.3 语境学习能力显现 98
4.2 模型规模和能力的缩放定律 109
4.2.1 龙猫法则 114
4.2.2 能力涌现现象 115
4.3 大语言模型学会写代码 117
4.3.1 Codex 模型——程序员的智能助手 120
4.3.2 检验语言模型的编程能力 123
第 5 章 服从指令的大语言模型 128
5.1 InstructGPT——更听话的语言模型 129
5.1.1 从人类反馈中学习 134
5.1.2 近端策略优化算法 138
5.2 指令微调方法 143
5.3 拒绝采样——蒸馏提纯符合人类偏好的模型 146
5.4 从 AI 反馈中学习 147
第 6 章 开源大语言模型 151
6.1 GPT-J 和 GPT-Neo——开源社区的率先探索 152
6.2 Pile 开源大语言模型训练数据集 154
6.3 开源“羊驼”LLaMA 模型 156
6.3.1 SwiGLU——改进神经网络激活函数 158
IX
6.3.2 适合更长文本的 RoPE 160
6.3.3 分组查询注意力 163
6.3.4 评估数据污染问题 165
6.3.5 更听话的 Llama 2 模型 167
6.4 ChatGLM——国产大语言模型的开源先锋169
6.4.1 研发历程 169
6.4.2 语言模型的架构选择 170
6.4.3 GLM-130B 模型 172
6.4.4 悟道语料库 176
第 7 章 探秘大语言模型的并行训练178
7.1 并行训练一瞥 178
7.2 GPipe 流水线 180
7.3 PipeDream 流水线 182
7.3.1 高吞吐率的 PipeDream-2BW 流水线 184
7.3.2 节省内存的 PipeDream-Flush 流水线 184
第 8 章 大语言模型应用 186
8.1 常见应用场景 186
8.2 利用外部知识库打败“幻觉” 187
8.2.1 检索增强生成 188
8.2.2 句子编码器模型——编码知识库 190
8.2.3 小世界模型——实现快速知识检索 196
8.2.4 混合检索——重拾传统检索技术 201
8.3 思维链——思维过程的草稿纸 204
8.4 使用工具拓展能力范围 206
8.4.1 学习如何使用外部工具 207
8.4.2 ReAct——连续自主行动的智能体209
8.5 定制专属的智能体 212
第 9 章 大语言模型前沿展望 215
9.1 多模态大模型——有眼睛和耳朵的大语言模型 215
9.1.1 视觉语言模型——从 CLIP 模型到火烈鸟模型 216
X
9.1.2 Llama 3 模型的语音输入输出能力 221
9.2 关于安全和隐私的挑战 223
9.2.1 不同类型的安全和隐私问题 224
9.2.2 如何应对安全和隐私风险 227
9.3 大语言模型距离强人工智能还有多远 228
9.3.1 世界模拟器——Sora 视频生成模型 229
9.3.2 JEPA——世界模型 231
9.3.3 草莓模型 o1——学会“深思熟虑” 233
中英文对照表 238
参考文献 241
基本信息 | |
---|---|
出版社 | 机械工业出版社 |
ISBN | 9787111783541 |
条码 | 9787111783541 |
编者 | 董政 著 著 |
译者 | -- |
出版年月 | 2025-07-01 00:00:00.0 |
开本 | 16开 |
装帧 | 平装 |
页数 | 246 |
字数 | 357 |
版次 | 1 |
印次 | 1 |
纸张 | 一般胶版纸 |
暂无商品评论信息 [发表商品评论]
暂无商品咨询信息 [发表商品咨询]