热门搜索: 中考 高考 考试 开卷17
服务电话 024-23945002/96192
 

机器学习与R语言(原书第4版)

编号:
wx1204266415
销售价:
¥131.12
(市场价: ¥149.00)
赠送积分:
131
数量:
   
商品介绍

想入门机器学习,用R语言搞定数据分析与预测建模?《机器学习与R语言(原书第4版)》经典升级!从数据处理、特征工程到监督/无监督学习,从基础算法到进阶优化,全流程拆解核心逻辑。搭配泰坦尼克号、野生蘑菇等真实数据集,本书新增超参数调优、高维数据处理等实战内容,配套代码与工具实操方案。不管你是学生、数据分析师还是行业从业者,都能通过本书搭建完整知识体系,夯实算法基础,轻松应对数据分析与建模任务,在AI浪潮中站稳脚跟!

R本身是一款十分优秀的数据分析和数据可视化软件。本书由机器学习领域的专家撰写,通过将实践案例与核心的理论知识相结合,全面介绍多种重要的机器学习算法,从对案例数据的探索、整理到模型的建立和模型的评估,每一步都给出详尽的步骤和R代码,为读者深入理解并灵活应用R语言进行数据挖掘和机器学习提供翔实参考。无论你是经验丰富的R语言用户还是初学者,作者都会教你如何进行数据预处理、发现关键见解、做出新的预测以及将结果可视化。这本书新增了机器学习成功之道、高级数据准备、构建更好的学习器以及利用大数据等章节,反映了机器学习在过去几年中取得的进步,帮助你掌握更多的数据科学技能,解决更具挑战性的问题。这本书已更新至 R语言 4.2.2版,其中包含更新、更好的库,关于机器学习中的道德和偏见问题的建议以及深度学习方面的介绍。无论你是想迈出使用R进行机器学习的第一步,还是想确保技能和知识与时俱进,这本书都是不可错过的读物。

布雷特·兰茨(Brett Lantz) <br />在应用创新的数据方法理解人类行为方面有近20年经验。作为一名科班出身的社会学家,他最初在研究一个包含青少年社交网络档案的大型数据库时,便对机器学习产生了浓厚兴趣。布雷特是DataCamp平台的讲师,曾在全球多地开展机器学习工作坊教学。他热衷于探索数据科学在体育、电子游戏、自动驾驶汽车、外语学习等多个领域的应用,并致力于在个人网站dataspelunking.com上就这些主题撰写文章分享见解。

目  录??Contents<br />译者序<br />前言<br />关于作者<br />关于审校者<br />第1章 机器学习概述1<br />1.1 机器学习起源1<br />1.2 机器学习的应用与滥用3<br />1.2.1 机器学习能做什么4<br />1.2.2 机器学习的局限性5<br />1.2.3 机器学习伦理6<br />1.3 机器如何学习8<br />1.3.1 数据存储9<br />1.3.2 抽象9<br />1.3.3 泛化11<br />1.3.4 评估12<br />1.4 机器学习实践13<br />1.4.1 输入数据类型13<br />1.4.2 机器学习算法分类15<br />1.4.3 选择合适的算法17<br />1.5 基于R语言的机器学习18<br />1.5.1 安装R软件包18<br />1.5.2 加载和卸载R软件包19<br />1.5.3 安装RStudio19<br />1.5.4 为何选择R语言20<br />1.6 小结21<br />第2章 管理与解读数据22<br />2.1 R语言中的数据结构22<br />2.1.1 向量23<br />2.1.2 因子24<br />2.1.3 列表26<br />2.1.4 数据框28<br />2.1.5 矩阵和数组30<br />2.2 管理数据32<br />2.2.1 保存、加载、删除数据<br />结构32<br />2.2.2 从CSV文件导入和保存<br />数据集33<br />2.2.3 用RStudio导入数据集34<br />2.3 探索和解读数据36<br />2.3.1 数据结构分析36<br />2.3.2 数值型特征分析37<br />2.3.3 类别型特征分析45<br />2.3.4 特征间的关系47<br />2.4 小结51<br />第3章 懒惰学习—最近邻分类52<br />3.1 最近邻分类52<br />3.1.1 k-NN算法53<br />3.1.2 何为“懒惰”算法58<br />3.2 示例:用k-NN算法诊断乳腺癌59<br />3.2.1 第1步:收集数据59<br />3.2.2 第2步:探索并准备<br />数据59<br />3.2.3 第3步:训练模型63<br />3.2.4 第4步:评估模型性能64<br />3.2.5 第5步:优化模型性能65<br />3.3 小结67<br />第4章 概率学习—朴素贝叶斯<br />分类69<br />4.1 朴素贝叶斯算法69<br />4.1.1 贝叶斯算法的基本概念70<br />4.1.2 朴素贝叶斯算法简介74<br />4.2 示例:用朴素贝叶斯算法过滤<br />手机垃圾短信78<br />4.2.1 第1步:收集数据78<br />4.2.2 第2步:探索并准备<br />数据79<br />4.2.3 第3步:训练模型91<br />4.2.4 第4步:评估模型<br />性能92<br />4.2.5 第5步:优化模型<br />性能93<br />4.3 小结94<br />第5章 分而治之—用决策树和<br />规则分类95<br />5.1 决策树95<br />5.1.1 分而治之96<br />5.1.2 C5.0决策树算法99<br />5.2 示例:使用C5.0决策树识别<br />高风险银行贷款101<br />5.2.1 第1步:收集数据102<br />5.2.2 第2步:探索并准备<br />数据102<br />5.2.3 第3步:训练模型105<br />5.2.4 第4步:评估模型性能108<br />5.2.5 第5步:优化模型性能109<br />5.3 分类规则113<br />5.3.1 离而治之114<br />5.3.2 1R算法115<br />5.3.3 RIPPER算法116<br />5.3.4 决策树中的规则117<br />5.3.5 何为决策树和规则的<br />贪婪118<br />5.4 示例:用规则学习器识别<br />毒蘑菇119<br />5.4.1 第1步:收集数据120<br />5.4.2 第2步:探索并准备<br />数据120<br />5.4.3 第3步:训练模型121<br />5.4.4 第4步:评估模型性能122<br />5.4.5 第5步:优化模型性能123<br />5.5 小结125<br />第6章 预测数值型数据<br />—回归法126<br />6.1 回归126<br />6.1.1 简单线性回归128<br />6.1.2 普通最小二乘估计129<br />6.1.3 相关性131<br />6.1.4 多重线性回归132<br />6.1.5 广义线性模型与逻辑<br />回归135<br />6.2 示例:用线性回归预测汽车保险<br />理赔成本138<br />6.2.1 第1步:收集数据138<br />6.2.2 第2步:探索并准备<br />数据139<br />6.2.3 第3步:训练模型143<br />6.2.4 第4步:评估模型性能146<br />6.2.5 第5步:优化模型性能147<br /><br />6.2.6 更进一步:用逻辑回归<br />预测保险客户流失152<br />6.3 回归树和模型树156<br />6.4 示例:用回归树和模型树评估<br />葡萄酒的品质158<br />6.4.1 第1步:收集数据159<br />6.4.2 第2步:探索并准备<br />数据159<br />6.4.3 第3步:训练模型161<br />6.4.4 第4步:评估模型性能164<br />6.4.5 第5步:优化模型性能165<br />6.5 小结168<br />第7章 黑盒法—神经网络和支持<br />向量机169<br />7.1 神经网络169<br />7.1.1 从生物神经元到人工<br />神经元170<br />7.1.2 激活函数171<br />7.1.3 网络拓扑结构173<br />7.1.4 用反向传播训练神经<br />网络176<br />7.2 示例:用ANN对混凝土强度进行<br />建模177<br />7.2.1 第1步:收集数据178<br />7.2.2 第2步:探索并准备<br />数据178<br />7.2.3 第3步:训练模型179<br />7.2.4 第4步:评估模型性能181<br />7.2.5 第5步:优化模型性能182<br />7.3 支持向量机187<br />7.3.1 用超平面分类187<br />7.3.2 使用核函数处理非线性<br />空间190<br />7.4 示例:使用SVM进行OCR<br />识别191<br />7.4.1 第1步:收集数据192<br />7.4.2 第2步:探索并准备<br />数据192<br />7.4.3 第3步:训练模型193<br />7.4.4 第4步:评估模型性能195<br />7.4.5 第5步:优化模型性能196<br />7.5 小结199<br />第8章 发掘模式—用关联规则<br />进行购物篮分析200<br />8.1 关联规则200<br />8.1.1 Apriori算法201<br />8.1.2 衡量规则的兴趣度<br />—支持度和置信度203<br />8.1.3 用先验原则建立规则203<br />8.2 示例:用关联规则识别热销<br />商品204<br />8.2.1 第1步:收集数据205<br />8.2.2 第2步:探索并准备<br />数据205<br />8.2.3 第3步:训练模型211<br />8.2.4 第4步:评估模型性能214<br />8.2.5 第5步:优化模型性能217<br />8.3 小结222<br />第9章 寻找数据分组—k均值<br />聚类223<br />9.1 聚类223<br />9.1.1 基于聚类的机器学习224<br />9.1.2 聚类算法中的簇225<br />9.1.3 k均值聚类算法228<br />9.2 用k均值聚类找出青少年用户<br />细分市场232<br />9.2.1 第1步:收集数据232<br />9.2.2 第2步:探索并准备<br />数据233<br />9.2.3 第3步:训练模型237<br />9.2.4 第4步:评估模型性能239<br />9.2.5 第5步:优化模型性能242<br />9.3 小结243<br />第10章 评估模型性能244<br />10.1 衡量分类性能244<br />10.1.1 分类器预测245<br />10.1.2 进一步了解混淆矩阵248<br />10.1.3 用混淆矩阵衡量性能249<br />10.1.4 除准确率之外的其他<br />性能衡量指标251<br />10.1.5 用ROC曲线可视化<br />性能权衡260<br />10.2 估算未来性能267<br />10.2.1 留出法267<br />10.2.2 交叉验证270<br />10.2.3 自助抽样273<br />10.3 小结274<br />第11章 机器学习成功之道275<br />11.1 机器学习从业指南275<br />11.2 何为成功的机器学习模型277<br />11.2.1 规避浅显的预测279<br />11.2.2 进行公平的评估280<br />11.2.3 考虑现实影响283<br />11.2.4 建立对模型的信任286<br />11.3 为数据科学注入“科学”元素288<br />11.3.1 使用R笔记本和<br />R标记291<br />11.3.2 高级数据探索294<br />11.4 小结307<br />第12章 高级数据准备308<br />12.1 特征工程简介308<br />12.1.1 人机角色309<br />12.1.2 大数据和深度学习的<br />影响311<br />12.2 特征工程实践315<br />12.2.1 建议1:集思广益<br />构建新特征316<br />12.2.2 建议2:找出文本<br />中蕴含的信息317<br />12.2.3 建议3:转换数值<br />范围318<br />12.2.4 建议4:观测相邻<br />数据319<br />12.2.5 建议5:利用相关行319<br />12.2.6 建议6:分解时间<br />序列320<br />12.2.7 建议7:引入外部<br />数据323<br />12.3 探索tidyverse325<br />12.3.1 用tibble构建清晰的<br />表结构325<br />12.3.2 用readr和readxl快速<br />读取数据表326<br />12.3.3 用dplyr准备并传输<br />数据327<br />12.3.4 用stringr转换文本330<br />12.3.5 用lubridate处理日期<br />数据335<br />12.4 小结339<br />第13章 难以处理的数据—过多、<br />太少,或过于复杂340<br />13.1 高维数据340<br />13.1.1 特征选择342<br />13.1.2 特征提取349<br />13.2 稀疏数据357<br />13.2.1 识别稀疏数据358<br /><br />13.2.2 示例:重映射稀疏<br />分类数据359<br />13.2.3 示例:划分数值型<br />稀疏数据区间362<br />13.3 缺失数据365<br />13.3.1 缺失数据的类型366<br />13.3.2 缺失值填补367<br />13.4 数据不平衡问题369<br />13.4.1 平衡数据的简单<br />策略370<br />13.4.2 用SMOTE生成<br />合成平衡数据集372<br />13.4.3 平衡的取舍375<br />13.5 小结376<br />第14章 构建更好的学习器377<br />14.1 优化现有模型以提升性能377<br />14.1.1 确定超参数调优<br />范围378<br />14.1.2 示例:用caret<br />进行自动调优380<br />14.2 用集成法提高模型性能387<br />14.2.1 集成学习388<br />14.2.2 常用的集成算法390<br />14.3 元学习模型堆叠408<br />14.3.1 模型堆叠与融合409<br />14.3.2 用R语言实现融合与<br />堆叠410<br />14.4 小结412<br />第15章 利用大数据414<br />15.1 深度学习应用414<br />15.1.1 深度学习简介415<br />15.1.2 卷积神经网络418<br />15.2 无监督学习和大数据426<br />15.2.1 用嵌入表示高维<br />概念426<br />15.2.2 高维数据可视化435<br />15.3 用R语言处理大型数据集441<br />15.3.1 SQL数据库查询441<br />15.3.2 用并行处理提升<br />性能446<br />15.3.3 利用专用硬件和<br />算法451<br />15.4 小结456

商品参数
基本信息
出版社 机械工业出版社
ISBN 9787111792758
条码 9787111792758
编者 [美]布雷特·兰茨(Brett Lantz) 著 卢浩 李冬 张学平 郭乐江 魏多娇 译
译者
出版年月 2026-01-01 00:00:00.0
开本 16开
装帧 平装
页数 458
字数 782
版次 1
印次 1
纸张
商品评论

暂无商品评论信息 [发表商品评论]

商品咨询

暂无商品咨询信息 [发表商品咨询]