暂无商品咨询信息 [发表商品咨询]
?从零开始:基础理论介绍和智能对话开源框架使用讲解,入门门槛低,易于初学者实战上手。
?内容全面:内容涉及FAQ问答、知识图谱问答、任务型问答和表格型问答等主要智能对话类型,也涵盖这些智能对话类型企业级的综合应用实例讲解。
?内容新颖:既有深度学习前沿算法介绍,也有强化学习智能对话相关算法及代码讲解。
?经验总结:全面归纳和整理作者多年的智能对话实践经验。
?内容实用:结合大量源代码和开源框架实例进行讲解,能迅速搭建自己的智能对话系统。
?通俗易懂:理论深入浅出,每章均可单独阅读,可作为床头书随时查阅。
本书是一本系统讲解DeepSeek源码及其核心实现原理的技术指南,内容覆盖了从基础概念到高级应用的全流程知识。全书共7章,结构层层递进。第1章对DeepSeek进行了全面概述,帮助读者构建对DeepSeek系统的整体认知。第2章聚焦于环境搭建、代码获取与模型部署接入,为后续深入研究提供基础。第3章深入探讨了MoE(混合专家模型)的基本原理、功能模块与优化技术。第4章详细解析了DeepSeek-V3模型的架构知识,并通过测试验证展示了系统的实际效果。第5章围绕统一多模态大模型展开,介绍了Janus系列架构、核心技术及工具模块。第6章针对高分辨率图像场景,探讨了结合MoE、细粒度特征提取与视觉/语言适配器的多模态模型的知识。第7章聚焦DeepSeek-R1推理大模型,展示了DeepSeek在推理性能与自我进化方面的前沿探索。
本书适合人工智能工程师、深度学习研究者、AI产品开发人员及高校师生阅读。无论您是希望夯实开源模型基础,还是寻找前沿实战案例,本书都将为您提供全面而深入的参考与指导。
薛栋
----------------------------
薛栋,华东理工大学信息科学与技术学院副教授/硕士生导师,德国慕尼黑工业大学工学博士,“上海市高层次青年人才计划”、“浦江人才计划”获得者。先后在荷兰格罗宁根大学(RUG)、德国卡尔斯鲁厄理工大学(KIT)从事教师和研究员工作。长期从事基于人工智能与大数据相关研究,包括自然语言处理与大语言模型、工业互联网与工业软件、复杂网络与多智能体系统等课题。以第一作者或通讯作者在IEEE TAC、IEEE TSP、IEEE TNSE等国际高级期刊上发表SCI论文30余篇,主持和参与完成多项包括国家自然科学基金面上项目、上海市人才计划项目、企业科研攻关项目等在内的课题。主讲课程包括本科必修课《人工智能数学基础》和研究生课程《自主无人系统》以及《工业互联网关键技术》。
黄捷
----------------------------
黄捷:福州大学电气工程与自动化学院教授、博士生导师,福建省闽江学者奖励计划特聘教授、福建省高校杰出青年科研人才、福建省引进高层次人才、福州大学旗山学者、福建省闽江科学传播学者,研究方向涵盖多智能体系统协同控制与决策、工业互联网基础理论与关键技术等。现担任福建省自动化学会副会长、福州大学5G+工业互联网研究院院长等职务。
第1章DeepSeek概述
1.1 DeepSeek简介2
1.1.1 DeepSeek介绍2
1.1.2 DeepSeek的背景与目标2
1.1.3 DeepSeek的产品3
1.1.4 DeepSeek的应用场景5
1.1.5 DeepSeek的核心功能6
1.2 DeepSeek的架构概览7
1.2.1 DeepSeek的整体架构设计8
1.2.2 DeepSeek的模块划分8
1.2.3 DeepSeek与其他模型的技术对比9
第2章环境搭建、代码获取与模型部署接入
2.1 环境准备14
2.1.1 硬件环境要求14
2.1.2 软件环境配置15
2.2 源码获取与管理16
2.2.1 开源项目简介16
2.2.2 获取源码18
2.2.3 代码分支管理19
2.2.4 代码更新与同步20
2.3 DeepSeek模型的本地部署与接入21
2.3.1 安装Ollama 21
2.3.2 部署DeepSeek模型22
2.3.3 Chatbox部署可视化23
2.3.4 DeepSeek接入整合25
第3章混合专家模型(MoE)初探
3.1 项目介绍28
3.1.1 基本特点28
3.1.2 开源内容29
3.2 功能模块303.3 ZeRO配置30
3.3.1 ZeRO优化器介绍30
3.3.2 第2阶段优化配置31
3.3.3 第3阶段优化配置32
3.3.4 优化总结34
3.4 模型微调34
3.4.1 微调原理34
3.4.2 生成提示文本35
3.4.3 配置模型微调参数36
3.4.4 设置训练数据37
3.4.5 配置超参数37
3.4.6 保存模型38
3.4.7 获取最新检查点39
3.4.8 安全保存模型39
3.4.9 分词处理40
3.4.10 文本预处理40
3.4.11 数据收集器41
3.4.12 训练数据的分词和预处理42
3.4.13 构建和配置模型42
3.4.14 训练模型44
3.4.15 微调模型47
3.5 调用模型48
3.5.1 下载模型48
3.5.2 调用模型50
第4章基于DeepSeekMoE架构的DeepSeek-V3
4.1 项目介绍54
4.1.1 核心特点54
4.1.2 训练流程54
4.1.3 与DeepSeekMoE项目的区别56
4.2 开源信息介绍57
4.3 模型权重58
4.3.1 权重结构58
4.3.2 加载规则59
4.3.3 FP8权重60
4.4 超参数配置61
4.4.1 小规模版本(16B)的配置61
4.4.2 中规模版本(236B)的配置63
4.4.3 大规模版本(671B)的配置64
4.5 模型架构64
4.5.1 DeepSeek-V3模型架构介绍65
4.5.2 配置信息66
4.5.3 并行嵌入68
4.5.4 线性变换69
4.5.5 线性层70
4.5.6 RMSNorm(均方根层归一化)73
4.5.7 RoPE计算74
4.5.8 多头注意力层77
4.5.9 多层感知器80
4.5.10 DeepSeek-V3中的MoE架构实现81
4.5.11 Transformer模型86
4.5.12 验证和测试88
4.6 量化计算88
4.6.1 输入张量进行量化处理89
4.6.2 块级量化处理89
4.6.3 权重矩阵的反量化90
4.6.4 对激活值和权重的量化与反量化91
4.6.5 调优参数92
4.6.6 FP8矩阵乘法内核92
4.6.7 FP8矩阵乘法实现94
4.7 权重转换95
4.7.1 权重格式转换95
4.7.2 权重精度转换98
4.7.3 不同硬件平台的转换101
4.8 测试模型102
4.8.1 模型加载与文本生成102
4.8.2 测试功能106
4.9 DeepSeek-V3模型总结108
第5章统一多模态大模型
5.1 项目介绍112
5.2 架构原理与核心技术112
5.2.1 Janus架构113
5.2.2 Janus-Pro架构114
5.2.3 JanusFlow架构116
5.2.4 核心技术对比117
5.3 开源信息介绍118
5.4 工具模块119
5.4.1 对话管理120
5.4.2 数据加载129
5.5 构建多模态模型131
5.5.1 向量量化模型131
5.5.2 CLIP视觉编码器146
5.5.3 投影器148
5.5.4 Vision Transformer视觉模型150
5.5.5 图像处理器167
5.5.6 多模态因果语言模型171
5.5.7 多模态处理器177
5.6 JanusFlow模型架构185
5.6.1 多模态模型185
5.6.2 数据预处理189
5.6.3 U-ViT模型190
5.7 模型推理212
5.7.1 多模态推理测试212
5.7.2 文生图推理213
5.7.3 交互式文生图推理216
5.8 Web交互测试219
5.8.1 FastAPI测试219
5.8.2 Gradio交互222
第6章适用于高分辨率图像的多模态模型
6.1 项目介绍228
6.1.1 模型架构228
6.1.2 技术创新与亮点230
6.1.3 模型训练231
6.1.4 对比Janus项目232
6.2 开源模型233
6.3 开源信息介绍234
6.4 配置文件235
6.5 模型架构237
6.5.1 模型配置237
6.5.2 多模态模型架构242
6.5.3 数据处理259
6.5.4 DeepSeek模型架构276
6.5.5 Vision Transformer(ViT)的视觉模型328
6.5.6 对话模板和历史记录管理349
6.5.7 DeepSeek-VL2模型总结356
6.6 模型部署和在线服务359
6.6.1 设置部署参数359
6.6.2 工具函数362
6.6.3 Gradio工具373
6.6.4 模板覆盖与扩展376
6.6.5 Web前端378
6.6.6 模型推理380
6.7 图文对话推理384
6.8 Web测试387
6.8.1 Web前端实现387
6.8.2 启动Web测试402
第7章DeepSeek-R1推理大模型
7.1 背景介绍406
7.2 项目介绍406
7.2.1 模型演进406
7.2.2 训练方案407
7.2.3 蒸馏小型模型408
7.2.4 开源信息介绍409
7.2.5 结论410
7.3 DeepSeek-R1-Zero训练方案411
7.3.1 强化学习算法411
7.3.2 奖励建模412
7.3.3 训练模板412
7.3.4 DeepSeek-R1-Zero的性能413
7.3.5 DeepSeek-R1-Zero的自我进化过程413
7.3.6 在DeepSeek-R1-Zero的“顿悟时刻”415
7.4 DeepSeek-R1训练方案416
7.4.1 冷启动416
7.4.2 推理导向的强化学习417
7.4.3 拒绝采样和监督微调417
7.4.4 全场景强化学习418
7.5 蒸馏处理419
7.5.1 基础模型的选择与蒸馏过程419
7.5.2 模型蒸馏的技术原理420
基本信息 | |
---|---|
出版社 | 北京大学出版社 |
ISBN | 9787301361580 |
条码 | 9787301361580 |
编者 | 薛栋,黄捷 著 |
译者 | -- |
出版年月 | 2025-05-01 00:00:00.0 |
开本 | 16开 |
装帧 | 平装 |
页数 | 432 |
字数 | 650000 |
版次 | 1 |
印次 | 1 |
纸张 | 一般胶版纸 |
暂无商品评论信息 [发表商品评论]
暂无商品咨询信息 [发表商品咨询]