暂无商品咨询信息 [发表商品咨询]
大模型边缘推理系统是指将训练好的大型模型部署在边缘设备上,利用本地算力进行实时推理的系统。随着边缘计算的快速发展,这种系统正成为AI技术在资源受限环境中应用的关键路径。
全书共分为10章,系统解析大模型在边缘侧的部署路径,围绕大模型原理、边缘计算特性及两者结合面临的挑战展开。全书首先介绍Transformer架构、大模型裁剪与知识蒸馏方法,覆盖量化策略与推理优化机制,深入剖析了权重剪枝、混合精度计算、推理引擎执行流及算子融合等关键技术。随后聚焦实际部署流程与系统调度策略,从模型格式兼容、工具链集成到流水线构建与资源限制应对,再到KV缓存、模型热加载与调度优化等边缘执行机制均有深入讲解。最后基于平台与场景展开应用实战,包括面向ARM、RISC-V与x86的跨平台部署策略、智能驾驶中的路径规划与目标识别、健康监测AI系统的高效运行。
全书内容贯穿理论基础、工程手段与系统集成,面向研发实践,提供可操作性极强的技术方案与工程路径。适合从事人工智能、边缘计算、大规模模型部署、系统集成与优化的工程师、研究人员及技术管理人员阅读。
无
第1章 大模型与边缘智能 001
1.1 大模型技术体系概览 002
1.1.1 Transformer与自注意力机制 002
1.1.2 大模型的训练范式与参数规模 005
1.1.3 编码器、解码器架构与任务适配 007
1.1.4 训练、微调与推理 009
1.2 边缘计算架构 010
1.2.1 云、边、端协同模型解析 011
1.2.2 边缘设备资源约束特性 011
1.2.3 实时性、隐私与能效需求 012
1.2.4 嵌入式AI芯片技术 013
1.3 边缘智能中的大模型趋势 014
1.3.1 TinyML与边缘AI模型 014
1.3.2 大模型裁剪与蒸馏 017
1.3.3 智能终端对LLM能力的需求 018
1.3.4 端上协处理器与异构部署 020
1.4 大模型边缘部署面临的核心问题 021
1.4.1 问题1:模型体积过大与延迟瓶颈 022
1.4.2 问题2:推理成本与能耗管理矛盾 023
1.4.3 问题3:部署工具链与平台差异性 024
1.5 本章小结 025
第2章 大模型结构精简与裁剪 026
2.1 模型压缩与结构优化的基本原理 027
2.1.1 参数冗余性分析与表示稀疏性 027
2.1.2 压缩技术分类与适用条件 029
2.1.3 子网络搜索实现 032
2.1.4 模型尺寸对性能的影响 034
2.2 权重剪枝技术及其实现方式 036
2.2.1 非结构化剪枝与稀疏权重矩阵 036
2.2.2 结构化剪枝:Head、Block与Layer 038
2.2.3 剪枝训练策略与量化感知剪枝 039
2.2.4 主流剪枝框架:Torch-Pruning与NNCF 041
2.3 知识蒸馏技术 041
2.3.1 Logit、Feature与Attention蒸馏 041
2.3.2 教师模型与学生模型 044
2.3.3 DistilBERT、TinyCLIP等典型实战 045
2.3.4 蒸馏训练过程与损失函数设计 049
2.4 模型结构重组与轻量替代 052
2.4.1 MobileBERT、TinyLLaMA结构解析 052
2.4.2 分支结构设计 052
2.4.3 MoE混合专家策略 054
2.5 本章小结 056
第3章 大模型量化技术 057
3.1 模型量化基础与分类 058
3.1.1 量化精度等级:FP32、FP16、INT8、INT4 058
3.1.2 后训练量化与量化感知训练对比 060
3.1.3 对称、非对称量化方式分析 063
3.1.4 量化误差来源与度量 064
3.2 常见量化方法与框架 065
3.2.1 TensorRT量化 066
3.2.2 ONNX Runtime量化 071
3.2.3 QAT量化 074
3.2.4 GPTQ、AWQ等零样本量化 077
3.3 权重量化与激活量化 080
3.3.1 静态量化与动态量化 080
3.3.2 激活分布估计与量化窗口设计 082
3.3.3 权重Clip与量化感知训练算法 083
3.3.4 LayerNorm与Attention模块中的精度保留实现 085
3.4 量化校准与精度恢复机制 089
3.4.1 Calibration数据采集与分布重构 089
3.4.2 精度评估指标介绍 090
3.4.3 Mixed Precision策略 091
3.4.4 Hybrid-Quant与梯度调控 092
3.5 本章小结 094
第4章 推理引擎与执行优化机制 095
4.1 主流推理引擎体系 096
4.1.1 ONNX Runtime进阶:跨平台适配能力 096
4.1.2 TensorRT进阶:内核结构与执行流解析 097
4.1.3 TVM与自动图优化 099
4.1.4 TFLite与移动设备优化 101
4.2 推理图优化与算子融合 103
4.2.1 静态图构建与图剪枝 103
4.2.2 OP融合:LayerNorm、MatMul优化 105
4.2.3 Kernel调度重排与调度表优化 106
4.2.4 延迟路径预测与流水线执行基本概念 107
4.3 内存与缓存管理优化 108
4.3.1 张量复用与内存复合分配 108
4.3.2 Activation Checkpoint与内存压缩 109
4.3.3 Cache机制与中间状态管理 111
4.4 异构执行与多核调度 113
4.4.1 GPU、CPU混合执行 113
4.4.2 NPU、DSP协同调度 114
4.4.3 并行度控制与线程亲和性优化 115
4.4.4 编译时静态优化 116
4.5 本章小结 117
第5章 模型部署体系与边缘适配流程 118
5.1 模型格式与跨平台兼容 119
5.1.1 PyTorch Script、ONNX与Weight-Only格式 119
5.1.2 动态维度处理与模型封装规范 121
5.1.3 预处理、后处理模块实现 122
5.2 部署工具链与开发流程 126
5.2.1 TorchScript与ONNX导出流程 126
5.2.2 TVM自动调优与编译链 129
5.2.3 MNN、NCNN、Tengine等轻量部署工具 131
5.2.4 BentoML自动部署与模型管理系统 133
5.3 系统资源限制下的部署策略 134
5.3.1 限内存环境中的Batch调度 135
5.3.2 运算单元选择与降阶策略 136
5.3.3 常驻内存模型与调用热度优化 138
5.3.4 多模型切换与快速上下文加载 140
5.4 流水线构建与本地服务封装 142
5.4.1 多Stage推理管线设计 142
5.4.2 模型接口包装与调用协议 143
5.4.3 RESTful与gRPC接口集成 145
5.4.4 与本地业务系统的数据桥接机制 147
5.5 本章小结 151
第6章 边缘推理系统调度与运行时优化 152
6.1 本地缓存与状态管理 153
6.1.1 KV缓存设计与Token复用机制 153
6.1.2 多轮对话状态管理 160
6.1.3 局部缓存淘汰策略 160
6.1.4 Prompt压缩与上下文窗口控制 161
6.2 调度策略与资源分配 163
6.2.1 模型微服务编排 163
6.2.2 优先级调度与任务预占调度 164
6.2.3 功耗感知与负载均衡 166
6.2.4 本地与远端协同调度 169
6.3 多模型融合与动态加载技术 173
6.3.1 多模型权重共享与结构切换方法介绍 173
6.3.2 动态模型装载与释放 173
6.3.3 任务自适应匹配机制 178
6.4 运行时性能监控与容错机制 179
6.4.1 推理延迟分布分析 179
6.4.2 异常检测 180
6.4.3 资源泄漏诊断 183
6.4.4 实时监控指标采集方案 188
6.5 本章小结 189
第7章 安全机制与隐私保护设计 190
7.1 模型安全风险分析 191
7.1.1 权重逆向工程 191
7.1.2 Adversarial攻击 192
7.1.3 边缘设备数据注入威胁 195
7.1.4 模型敏感信息泄露分析 195
7.2 权限控制与模型加密策略 197
7.2.1 权限Token设计与调用 197
7.2.2 权重文件加密 199
7.2.3 推理结果的访问控制 200
7.2.4 模型数字水印 201
7.3 本地数据隔离与隐私计算机制 203
7.3.1 多用户边缘访问的虚拟隔离方案 203
7.3.2 数据最小化策略 204
7.3.3 差分隐私机制 205
7.3.4 本地联邦学习 206
7.4 日志审计系统 207
7.4.1 异常调用检测与沙箱化执行 207
7.4.2 模型使用日志结构设计 209
7.4.3 安全审计接口集成方式 210
7.5 本章小结 212
第8章 实战1:基于ARM、RISC-V与x86的跨平台部署 213
8.1 ARM架构及其他非主流架构的部署技术详解 214
8.1.1 Cortex-A与Cortex-M架构 214
8.1.2 Android NNAPI与TFLite集成方式 216
8.1.3 部署实战:以RK NPU与Kirin NPU为例 218
8.1.4 ARM Compute Library 220
8.2 RISC-V平台兼容与部署策略 222
8.2.1 RISC-V架构特性与执行流限制 222
8.2.2 支持的部署框架 223
8.2.3 RISC-V上的INT8量化推理 224
8.2.4 调试工具链与低功耗调优 225
8.3 x86平台部署与加速实践 226
8.3.1 Intel OpenVINO推理优化框架 226
8.3.2 AVX-512指令集的性能调优 227
8.3.3 多核并发调度 228
8.3.4 与边缘微服务器集成 230
8.4 部署自动化与工具链组合 230
8.4.1 使用Docker、ONNX构建跨平台镜像 230
8.4.2 模型自动压缩部署流水线设计 231
8.4.3 编译型部署工具设计 233
8.4.4 一键部署平台框架设计 234
8.5 本章小结 235
第9章 实战2:智能驾驶中的路径规划与目标识别 236
9.1 场景需求分析 237
9.1.1 路径规划任务 237
9.1.2 数据结构设计:多传感器融合输入侧 239
9.1.3 YOLOv8目标识别模型 241
9.1.4 系统延迟闭环与实时性分析 244
9.2 模型压缩与部署流程 248
9.2.1 模型裁剪 248
9.2.2 多模型调度策略 253
9.2.3 核心模块量化与精度分析 257
9.2.4 Jetson平台部署 259
9.2.5 GPU加速 260
9.3 推理调度与系统集成 261
9.3.1 摄像头与毫米波雷达数据协同处理 261
9.3.2 常见的系统总线通信延迟优化方案 264
9.3.3 本地日志记录与模型调试接口 264
9.4 性能评估与稳定性测试 267
9.4.1 帧率与模型帧间延迟评估 267
9.4.2 功耗动态分析 269
9.4.3 自动重载与故障恢复机制 271
9.5 本章小结 273
第10章 实战3:可穿戴设备中的健康监测AI系统 274
10.1 场景需求分析 275
10.2 低功耗优化策略 275
10.3 嵌入式部署与芯片适配 275
10.4 结果输出与交互反馈 275
10.5 本章小结 275
| 基本信息 | |
|---|---|
| 出版社 | 化学工业出版社 |
| ISBN | 9787122501677 |
| 条码 | 9787122501677 |
| 编者 | 睿思科技 编著 |
| 译者 | -- |
| 出版年月 | 2026-06-01 00:00:00.0 |
| 开本 | 16开 |
| 装帧 | 平装 |
| 页数 | 275 |
| 字数 | 337000 |
| 版次 | 1 |
| 印次 | 1 |
| 纸张 | 一般胶版纸 |
暂无商品评论信息 [发表商品评论]
暂无商品咨询信息 [发表商品咨询]