热门搜索: 中考 高考 考试 开卷17
服务电话 024-23945002/96192
 

PYTORCH计算机视觉实战:目标检测、图像处理与大模型(原书第2版)

编号:
wx1204258192
销售价:
¥139.92
(市场价: ¥159.00)
赠送积分:
140
数量:
   
商品介绍

想玩转计算机视觉,用 PyTorch 搞定目标检测、图像处理与大模型应用?这本实战宝典别错过!从深度学习基础、CNN 架构到 Transformer、稳定扩散,从传统 CV 任务到多模态融合,全流程拆解核心技术。40 + 实战案例搭配完整源码,兼顾理论与生产级部署,新手能搭建体系,资深开发者可突破瓶颈。不管你是学生、软件工程师还是科研人员,都能通过本书掌握计算机视觉核心技能,在 AI 浪潮中抢占职业高地!

本书系统介绍了基于PyTorch的计算机视觉技术,涵盖从理论基础到高级应用开发的全流程。全书分为四部分,共18章,第一部分讲解深度学习基础,包括人工神经网络、PyTorch基础知识及深度神经网络构建;第二部分聚焦物体分类与检测,涉及卷积神经网络、迁移学习、物体检测技术及图像分割;第三部分探讨图像处理,涵盖自动编码器、生成对抗网络等;第四部分介绍计算机视觉与其他技术的融合,包括与强化学习、自然语言处理的结合,基础模型、稳定扩散应用及模型部署。书中包含40多种实际应用案例,GitHub提供完整源代码,每章配有习题及答案,适合具备Python和机器学习基础的学生、软件开发人员及科研人员学习,助力其掌握计算机视觉与深度学习核心技能。

V·基肖尔·阿耶德瓦拉(V Kishore Ayyadevara)<br />知名企业家,实干型领导者,致力于技术、数据和人工智能交叉领域,专注于发现并解决商业难题。他拥有十余年领导经验,曾在美国运通(American Express)、亚马逊(Amazon)及一家顶级健康保险公司,成功搭建并壮大应用数据科学团队。目前,他创立了一家初创公司,旨在推动人工智能技术在医疗机构的普及。工作之余,Kishore撰写了5本关于机器学习/人工智能的著作以分享专业知识。他拥有12项发明专利,并多次受邀在人工智能领域的会议上发表演讲。<br /><br />耶什万斯·雷迪(Yeshwanth Reddy)<br />成就卓著的数据科学家,在深度学习与文档分析领域拥有10年以上实战经验。他为该领域做出了重大贡献,包括开发端到端文档数字化软件,助力实现显著成本节约。他的专业知识还涵盖光学字符识别、单词检测与合成文档生成等模块开发,其开创性工作成果获得多项专利认证,同时创建了多个Python库。怀着对无监督学习与自监督学习变革的热情,他致力于减少人工标注依赖,推动数据科学领域的创新解决方案。

目  录<br />译者序<br />前言<br />作者简介<br />审校者简介<br />第一部分 基于计算机视觉的深度学习基础<br />第1章 人工神经网络基础 2<br />1.1 对比人工智能与传统机器学习 3<br />1.2 学习人工神经网络的构建块 5<br />1.3 实现前向传播 6<br />1.3.1 计算隐藏层的单元值 6<br />1.3.2 应用激活函数 7<br />1.3.3 计算输出层的值 8<br />1.3.4 计算损失值 9<br />1.3.5 编码实现前向传播 10<br />1.4 实现反向传播 13<br />1.4.1 编码实现梯度下降 14<br />1.4.2 利用链式法则实现反向<br />传播 16<br />1.4.3 将前向传播与反向传播<br />相结合 19<br />1.5 了解学习率的影响 22<br />1.5.1 学习率为0.01 25<br />1.5.2 学习率为0.1 26<br />1.5.3 学习率为1 27<br />1.6 神经网络训练过程概述 28<br />1.7 本章小结 28<br />1.8 习题 29<br />第2章 PyTorch基础 30<br />2.1 安装PyTorch 30<br />2.2 PyTorch张量 31<br />2.2.1 初始化张量 32<br />2.2.2 张量运算 33<br />2.2.3 张量对象的自动梯度 37<br />2.2.4 PyTorch张量相对于NumPy<br />数组的优势 38<br />2.3 使用PyTorch构建神经网络 39<br />2.3.1 数据集、数据加载器与<br />批处理大小 45<br />2.3.2 根据新的数据点进行预测 48<br />2.3.3 实现自定义损失函数 49<br />2.3.4 获取神经网络中间层的值 50<br />2.4 使用顺序方法构建神经网络 51<br />2.5 保存并加载PyTorch模型 54<br />2.5.1 使用state_dict 54<br />2.5.2 保存 55<br />2.5.3 加载 55<br />2.6 本章小结 56<br />2.7 习题 56<br />第3章 使用PyTorch构建深度神经<br />网络 57<br />3.1 图像表示 58<br />3.1.1 将图像转换为结构化数组和<br />标量值 58<br />3.1.2 为彩色图像创建结构化<br />数组 60<br />3.2 为什么要利用神经网络进行图像<br />分析 62<br />3.3 准备用于图像分类的数据 63<br />3.4 训练神经网络 65<br />3.5 缩放数据集以提高模型准确率 70<br />3.6 理解批处理大小变化的影响 72<br />3.6.1 批处理大小为32 72<br />3.6.2 批处理大小为10 000 75<br />3.7 理解不同损失优化器的影响 76<br />3.8 构建更深的神经网络 79<br />3.9 理解批量归一化的影响 80<br />3.9.1 没有使用批量归一化的<br />极小输入值 81<br />3.9.2 使用批量归一化的极小<br />输入值 84<br />3.10 过拟合的概念 85<br />3.10.1 添加dropout的影响 86<br />3.10.2 正则化的影响 87<br />3.11 本章小结 90<br />3.12 习题 90<br />第二部分 物体分类与检测<br />第4章 卷积神经网络导论 92<br />4.1 传统深度神经网络存在的问题 92<br />4.2 卷积神经网络的构建块 95<br />4.2.1 卷积 96<br />4.2.2 滤波器 97<br />4.2.3 步长与填充 98<br />4.2.4 池化 99<br />4.2.5 整合各个构建块 99<br />4.2.6 卷积和池化在图像平移中的<br />作用 100<br />4.3 实现卷积神经网络 101<br />4.4 利用深度卷积神经网络进行图像<br />分类 104<br />4.5 可视化特征学习结果 109<br />4.6 构建用于真实世界图像分类的卷积<br />神经网络 119<br />4.7 本章小结 128<br />4.8 习题 128<br />第5章 用于图像分类的迁移学习 129<br />5.1 迁移学习概述 130<br />5.2 理解VGG16架构 131<br />5.3 理解ResNet架构 139<br />5.4 实现脸部关键点检测 143<br />5.5 实现年龄估计与性别分类 151<br />5.6 torch_snippets库概述 160<br />5.7 本章小结 165<br />5.8 习题 165<br />第6章 图像分类的实际应用 167<br />6.1 生成类激活图 167<br />6.2 理解数据增强与批量归一化的<br />影响 176<br />6.3 模型实现期间要注意的实际事项 181<br />6.3.1 不平衡的数据 181<br />6.3.2 图像中物体的大小 182<br />6.3.3 训练图像与验证图像之间的<br />区别 182<br />6.3.4 扁平化层的节点数 183<br />6.3.5 图像大小 183<br />6.3.6 OpenCV实用程序 183<br />6.4 本章小结 183<br />6.5 习题 184<br />第7章 物体检测基础知识 185<br />7.1 物体检测概述 185<br />7.2 创建用于训练的真实边界框 187<br />7.3 了解建议区域 188<br />7.3.1 利用 SelectiveSearch 生成<br />建议区域 189<br />7.3.2 实现SelectiveSearch生成<br />建议区域 190<br />7.4 了解交并比 192<br />7.5 非极大值抑制 194<br />7.6 平均精度均值 194<br />7.7 训练基于R-CNN的自定义物体<br />检测器 195<br />7.7.1 R-CNN的工作细节 195<br />7.7.2 在自定义数据集上实现用于<br />物体检测的R-CNN 196<br />7.7.3 数据集下载 197<br />7.8 训练基于Fast R-CNN的自定义物体<br />检测器 210<br />7.8.1 Fast R-CNN的工作细节 210<br />7.8.2 在自定义数据集上实现用于<br />物体检测的Fast R-CNN 211<br />7.9 本章小结 218<br />7.10 习题 218<br />第8章 高级物体检测 219<br />8.1 更先进的物体检测算法的组成<br />部分 219<br />8.1.1 锚框 220<br />8.1.2 建议区域网络 221<br />8.1.3 分类与回归 222<br />8.2 在自定义数据集上训练<br />Faster R-CNN 223<br />8.3 YOLO的工作细节 230<br />8.4 在自定义数据集上训练YOLO 235<br />8.4.1 安装Darknet 235<br />8.4.2 设置数据集格式 236<br />8.4.3 配置架构 237<br />8.4.4 训练与测试模型 238<br />8.5 SSD的工作细节 239<br />8.6 在自定义数据集上训练 SSD 243<br />8.7 本章小结 248<br />8.8 习题 248<br />第9章 图像分割 249<br />9.1 探索U-Net架构 250<br />9.2 执行上采样 251<br />9.3 使用U-Net实现语义分割 253<br />9.4 探索Mask R-CNN架构 259<br />9.4.1 RoI对齐 260<br />9.4.2 掩码头 262<br />9.5 使用Mask R-CNN实现实例<br />分割 263<br />9.6 预测多个类的多个实例 274<br />9.7 本章小结 277<br />9.8 习题 277<br />第10章 物体检测与分割的应用 278<br />10.1 多物体实例分割 278<br />10.1.1 获取与准备数据 279<br />10.1.2 训练实例分割模型 284<br />10.1.3 在新图像上进行推理 285<br />10.2 人体姿态检测 287<br />10.3 人群计数 289<br />10.4 图像着色 298<br />10.5 基于点云的3D物体检测 303<br />10.5.1 理论 304<br />10.5.2 训练用于3D物体检测的YOLO模型 307<br />10.6 视频行为识别 311<br />10.6.1 识别视频中的行为 312<br />10.6.2 在自定义数据集上训练<br />识别器 314<br />10.7 本章小结 316<br />10.8 习题 317<br />第三部分 图像处理<br />第11章 自动编码器与图像处理 320<br />11.1 理解自动编码器 320<br />11.1.1 自动编码器的工作原理 320<br />11.1.2 实现普通自动编码器 321<br />11.1.3 实现卷积自动编码器 326<br />11.1.4 使用t-SNE分组相似<br />图像 329<br />11.2 理解变分自动编码器 331<br />11.2.1 变分自动编码器的需求 331<br />11.2.2 变分自动编码器的工作<br />原理 333<br />11.2.3 KL散度 333<br />11.2.4 构建变分自动编码器 334<br />11.3 对图像进行对抗攻击 338<br />11.4 理解神经风格迁移 341<br />11.4.1 神经风格迁移的工作<br />原理 341<br />11.4.2 执行神经风格迁移 343<br />11.5 理解深度伪造 347<br />11.5.1 深度伪造的工作原理 347<br />11.5.2 生成深度伪造 348<br />11.6 本章小结 356<br />11.7 习题 357<br />第12章 基于生成对抗网络的图像<br />生成 358<br />12.1 生成对抗网络简介 358<br />12.2 利用生成对抗网络生成手写<br />数字 360<br />12.3 利用深度卷积生成对抗网络生成<br />人脸图像 366<br />12.4 实现条件生成对抗网络 373<br />12.5 本章小结 383<br />12.6 习题 383<br />第13章 用于图像处理的高级生成<br />对抗网络 384<br />13.1 利用Pix2Pix GAN 384<br />13.2 利用CycleGAN 394<br />13.2.1 CycleGAN的工作原理 395<br />13.2.2 实现CycleGAN 396<br />13.3 在自定义图像中利用StyleGAN 404<br />13.3.1 StyleGAN的演化 404<br />13.3.2 实现StyleGAN 406<br />13.4 SRGAN简介 412<br />13.4.1 架构 413<br />13.4.2 编码实现SRGAN 413<br />13.5 本章小结 415<br />13.6 习题 416<br />第四部分 计算机视觉与其他技术的融合<br />第14章 计算机视觉与强化学习<br />相结合 418<br />14.1 学习强化学习的基础知识 419<br />14.1.1 计算状态值 419<br />14.1.2 计算“状态–行动”值 420<br />14.2 实现Q学习 421<br />14.2.1 定义Q值 422<br />14.2.2 理解Gym环境 422<br />14.2.3 构建Q表 424<br />14.2.4 探索–利用策略 426<br />14.3 实现深度Q学习 428<br />14.3.1 理解CartPole环境 428<br />14.3.2 进行CartPole平衡 429<br />14.4 基于固定目标模型实现深度Q<br />学习 434<br />14.4.1 理解应用实例 435<br />14.4.2 编写一个智能体来玩乒乓球游戏 436<br />14.5 实现一个执行自动驾驶的<br />智能体 442<br />14.5.1 设置CARLA环境 442<br />14.5.2 训练自动驾驶智能体 445<br />14.6 本章小结 454<br />14.7 习题 455<br />第15 章 计算机视觉与自然语言处理<br />技术相结合 456<br />15.1 Transformer简介 457<br />15.1.1 Transformer基础知识 457<br />15.1.2 视觉Transformer的工作<br />原理 461<br />15.2 实现视觉Transformer 462<br />15.3 识别手写图像 466<br />15.3.1 手写识别工作流程 466<br />15.3.2 编码实现手写识别 467<br />15.4 文档布局分析 472<br />15.4.1 理解LayoutLM 472<br />15.4.2 实现LayoutLMv3 474<br />15.5 视觉问答 478<br />15.5.1 BLIP2简介 478<br />15.5.2 实现BLIP2 481<br />15.6 本章小结 482<br />15.7 习题 482<br />第16章 计算机视觉中的基础模型 483<br />16.1 CLIP简介 483<br />16.1.1 CLIP的工作原理 484<br />16.1.2 从头开始构建CLIP<br />模型 485<br />16.1.3 利用OpenAI CLIP 493<br />16.2 SAM简介 494<br />16.2.1 SAM的工作原理 495<br />16.2.2 实现SAM 498<br />16.2.3 FastSAM的工作原理 501<br />16.2.4 实现FastSAM 502<br />16.3 扩散模型简介 504<br />16.3.1 扩散模型的工作原理 504<br />16.3.2 扩散模型架构 505<br />16.3.3 从头开始构建扩散<br />模型 507<br />16.3.4 条件图像生成 511<br />16.4 理解稳定扩散 513<br />16.4.1 稳定扩散模型的构建块 514<br />16.4.2 实现稳定扩散 522<br />16.5 本章小结 524<br />16.6 习题 524<br />第17章 稳定扩散的应用 525<br />17.1 图像修复 525<br />17.1.1 模型训练工作流程 526<br />17.1.2 使用稳定扩散进行图像<br />修复 527<br />17.2 ControlNet 528<br />17.2.1 架构 528<br />17.2.2 实现ControlNet 529<br />17.3 SDXL Turbo 532<br />17.3.1 架构 532<br />17.3.2 实现SDXL Turbo 533<br />17.4 DepthNet 534<br />17.4.1 DepthNet工作流程 534<br />17.4.2 实现DepthNet 534<br />17.5 根据文本生成视频 535<br />17.5.1 工作流程 536<br />17.5.2 实现根据文本生成<br />视频 536<br />17.6 本章小结 537<br />17.7 习题 538<br />第18章 模型部署到生产环境 539<br />18.1 了解API的基础知识 540<br />18.2 在本地服务器上创建API并进行<br />预测 541<br />18.2.1 安装API模块及依赖项 541<br />18.2.2 部署图像分类器 541<br />18.3 封装应用程序 545<br />18.4 在云端部署并运行Docker容器 549<br />18.4.1 配置AWS 549<br />18.4.2 在AWS ECR上创建Docker存储库并推送镜像 549<br />18.4.3 提取镜像并构建Docker<br />容器 550<br />18.5 识别数据漂移 552<br />18.6 使用向量存储 555<br />18.7 本章小结 557<br />18.8 习题 558<br />附录 559

商品参数
基本信息
出版社 机械工业出版社
ISBN 9787111794905
条码 9787111794905
编者 [印]V·基肖尔·阿耶德瓦拉(V Kishore Ayyadevara) [印]耶什万斯·雷迪(Yeshwanth Reddy) 著 刘冰 杨勇 译
译者
出版年月 2026-01-01 00:00:00.0
开本 16开
装帧 平装
页数 572
字数 863
版次 1
印次 1
纸张
商品评论

暂无商品评论信息 [发表商品评论]

商品咨询

暂无商品咨询信息 [发表商品咨询]