暂无商品咨询信息 [发表商品咨询]
本书的主要内容有:确保数据科学工作流程创造价值。设计可操作的、及时的和相关的指标。提供引人瞩目的叙述以获得利益相关者的支持。使用模拟确保你的机器学习算法是解决该问题的正确工具。识别、纠正和预防数据泄露。通过估计因果效应理解增量性。
目录
前言 1
第一部分 数据分析技术
第1 章 那又怎样?利用数据科学创造价值 . 11
1.1 价值是什么 11
1.2 是什么:了解业务 12
1.3 所以呢:在DS 中创造价值的要点 .14
1.4 现在怎么办:成为一个积极进取的人 15
1.5 衡量价值16
1.6 关键要点18
1.7 扩展阅读19
第2 章 指标设计 21
2.1 指标应具备的理想属性 .21
2.1.1 可衡量 21
2.1.2 可操作性 .22
2.1.3 相关性 22
2.1.4 及时性 22
2.2 指标分解23
2.2.1 漏斗分析 .23
2.2.2 存量流量分解 24
2.2.3 P×Q 型分解 .25
2.3 例子:另一种收入分解 .25
2.4 例子:市场 26
2.5 关键要点27
2.6 扩展阅读28
第3 章 增长分解:理解顺境与逆境 29
3.1 为什么要进行增长分解 .29
3.2 加法分解30
3.2.1 例子 30
3.2.2 解释和用例 31
3.3 乘法分解32
3.3.1 例子 33
3.3.2 解释 34
3.4 混合比率分解 .34
3.4.1 例子 35
3.4.2 解释 36
3.5 数学推导37
3.5.1 加法分解 .37
3.5.2 乘法分解 .37
3.5.3 混合比率分解 38
3.6 关键要点39
3.7 扩展阅读39
第4 章 2×2 设计 .41
4.1 简化的案例 41
4.2 什么是2×2 设计 .42
4.3 示例:测试模型和新功能 44
4.4 示例:了解用户行为 46
4.5 例子:信贷发放和接收 .48
4.6 示例:确定工作流程的优先级 49
4.7 关键要点50
4.8 扩展阅读51
第5 章 构建商业案例 53
5.1 构建商业案例的一些原则 53
5.2 示例:主动留存策略 54
5.3 欺诈罪预防 56
5.4 购买外部数据集 57
5.5 从事一个数据科学项目 .58
5.6 关键要点58
5.7 扩展阅读59
第6 章 提升度是什么 61
6.1 定义提升度 61
6.2 示例:分类器模型 62
6.3 自选择偏差和幸存者偏差 63
6.4 提升度的其他用途 65
6.5 关键要点65
6.6 扩展阅读66
第7 章 叙述 67
7.1 什么是叙述:用你的数据来讲故事.67
7.1.1 清晰明了的 68
7.1.2 可信的 70
7.1.3 难忘的 71
7.1.4 可操作的 .72
7.2 构建一个故事 .72
7.2.1 科学讲述 .72
7.2.2 什么,那又怎样,现在怎么办 .74
7.3 最后的阶段 75
7.3.1 写TL;DR .75
7.3.2 如何撰写令人难忘的TL;DR .76
7.3.3 示例:为本章节写TL;DR 77
7.3.4 进行有力的电梯演讲.79
7.3.5 展现你的叙述 79
7.4 关键要点80
7.5 扩展阅读81
第8 章 数据可视化:选择正确的图表来传递信息 83
8.1 一些有用的和不太常用的数据可视化 83
8.1.1 条形图和折线图 83
8.1.2 斜线图 85
8.1.3 瀑布图 86
8.1.4 平滑散点图 87
8.1.5 绘制分布 .88
8.2 一般建议90
8.2.1 为你想传达的信息找到正确的图表 90
8.2.2 明智的选择颜色 91
8.2.3 图表中的不同维度 .92
8.2.4 争取足够大的数据墨水比率 .92
8.2.5 定制与半自动化相比.93
8.2.6 从一开始就确定正确的字体大小 93
8.2.7 交互的或者静态的 .94
8.2.8 保持简单 .94
8.2.9 从解释图表开始 95
8.3 关键要点95
8.4 扩展阅读95
第二部分 机器学习
第9 章 模拟法和自助法 .99
9.1 基本的模拟 100
9.2 模拟线性模型和线性回归 .103
9.3 什么是部分依赖图 .105
9.4 遗漏变量偏差 110
9.5 模拟分类问题 113
9.5.1 潜在变量模型 .113
9.5.2 比较不同算法 .114
9.6 自助法 . 116
9.7 关键要点. 119
9.8 扩展阅读.120
第10 章 线性回归:回到基础 121
10.1 什么是系数 .121
10.2 Frisch-Waugh-Lovell 定理 125
10.3 为什么你应该关心FWL 128
10.4 干扰因子 129
10.5 额外变量 131
10.6 在机器学习中变化是中心角色 .133
10.7 关键要点 137
10.8 扩展阅读 138
第11 章 数据泄露 141
11.1 什么是数据泄露 141
11.1.1 结果也是一个特征 142
11.1.2 特征是结果的函数 142
11.1.3 不良控制变量 142
11.1.4 时间戳标记错误 .143
11.1.5 具有不规则时间聚合的多个数据集 .143
11.1.6 其他信息的泄露 .144
11.2 检测数据泄露 145
11.3 完全分离 147
11.4 窗口方法 149
11.4.1 选择窗户的长度 .151
11.4.2 训练阶段与评分阶段相对应 .152
11.4.3 实现窗口方法 153
11.5 有数据泄露了:现在怎么办 154
11.6 关键要点 155
11.7 扩展阅读 155
第12 章 生产化模型 . 157
12.1 “生产就绪”是什么意思157
12.1.1 批量评分(离线) 158
12.1.2 实时模型对象 160
12.2 数据和模型漂移 161
12.3 任何生产流程中的基本步骤 163
12.3.1 获取和转换数据 .163
12.3.2 验证数据 164
12.3.3 训练和评分阶段 .166
12.3.4 验证模型和评分 .166
12.3.5 部署模型和评分 .167
12.4 关键要点 167
12.5 扩展阅读 168
第13 章 机器学习中的故事讲述 171
13.1 机器学习故事讲述的全过程 171
13.2 事前和期间讲故事 172
13.2.1 提出假设 173
13.2.2 特征工程 176
13.3 事后讲故事:打开黑盒子179
13.3.1 可解释性和性能的权衡 179
13.3.2 线性回归:设置一个基准 .181
13.3.3 特征重要性183
13.3.4 热图 185
13.3.5 部分依赖图187
13.3.6 累积局部效应 189
13.4 关键要点 191
13.5 扩展阅读 192
第14 章 从预测到决策 . 195
14.1 剖析决策制定 196
14.2 明智的阈值产生简单的决策规则 197
14.2.1 精确率和召回率 .198
14.2.2 例子:潜在客户生成 200
14.3 混淆矩阵优化 202
14.4 关键要点 204
14.5 扩展阅读 204
第15 章 增量:数据科学的圣杯 205
15.1 定义增量 205
15.1.1 从因果推理到提升预测 206
15.1.2 因果推理作为差异化因素 .206
15.1.3 提升决策制定 207
15.2 干扰因子和对撞因子 .207
15.3 选择偏差 211
15.4 无混淆假设 .215
15.5 打破选择偏差:随机化 216
15.6 匹配 217
15.7 机器学习和因果推理 .220
15.7.1 打开源代码库 221
15.7.2 双重机器学习 222
15.8 关键要点 224
15.9 扩展阅读 225
第16 章 A/B 测试 229
16.1 什么是A/B 测试 229
16.2 决策标准 230
16.3 最小可检测效应 234
16.3.1 选择统计功效、显著性水平和P 值 .237
16.3.2 估计结果的方差 .238
16.3.3 模拟 239
16.3.4 例子:转换费率 .240
16.3.5 设置MDE .241
16.4 假设列表 242
16.4.1 指标 243
16.4.2 假设 243
16.4.3 排名 243
16.5 实验治理 244
16.6 关键要点 245
16.7 扩展阅读 246
第17 章 大型语言模型和数据科学实践 . 249
17.1 当前人工智能的状态 .249
17.2 数据科学家们做什么 .251
17.3 不断演变的数据科学家职位描述 253
17.3.1 案例学习:A/B 测试 255
17.3.2 案例学习:数据清理 256
17.3.3 案例学习:机器学习 256
17.4 LLM 和本书 257
17.5 关键要点 258
17.6 扩展阅读 259
基本信息 | |
---|---|
出版社 | 中国电力出版社 |
ISBN | 9787523901557 |
条码 | 9787523901557 |
编者 | [墨西哥]丹尼尔 沃恩(Daniel Vaughan) 著 |
译者 | |
出版年月 | 2025-08-01 00:00:00.0 |
开本 | 16开 |
装帧 | 平装 |
页数 | 276 |
字数 | 319000 |
版次 | 1 |
印次 | 1 |
纸张 |
暂无商品评论信息 [发表商品评论]
暂无商品咨询信息 [发表商品咨询]