热门搜索: 中考 高考 考试 开卷17
服务电话 024-23945002/96192
 

构建数据和机器学习平台

编号:
wx1203668539
销售价:
¥85.26
(市场价: ¥98.00)
赠送积分:
85
数量:
   
商品介绍

本书的主要内容有:设计现代化和安全的云原生或混合式数据分析和机器学习平台。整合数据到妥善治理、可扩展和有弹性的数据平台,以数据加速创新。实现企业数据访问的民主化,治理业务团队抽取洞察力的方式,并构建AI/ML能力。赋予业务团队用流处理流水线实时决策的能力。构建MLOps平台,采用预测分析和规范性分析方法。

目录
前言 1
第1 章 数据平台现代化概览 . 11
1.1 数据生命周期 .12
1.1.1 智慧之旅 .12
1.1.2 水管类比 .13
1.1.3 采集 14
1.1.4 存储 15
1.1.5 处理和转换 17
1.1.6 分析和可视化 18
1.1.7 激活 19
1.2 传统方法的局限性 20
1.2.1 反模式:用ETL 打破数据孤岛 20
1.2.2 反模式:集中控制 .24
1.2.3 反模式:数据集市和Hadoop 25
1.3 创建统一的分析平台 27
1.3.1 从内部平台改为云平台 27
1.3.2 数据集市和数据湖的缺点 28
1.3.3 融合数据仓库和数据湖 29
1.4 混合云 34
1.4.1 混合的必要性 34
1.4.2 混合云的挑战 35
1.4.3 混合方案为什么可行.37
1.4.4 边缘计算 .38
1.5 采用AI 39
1.5.1 机器学习 .39
1.5.2 采用机器学习 40
1.6 AI 为什么要上云 42
1.6.1 云基础设施 42
1.6.2 普及机器学习 43
1.6.3 实时 45
1.6.4 MLOps .46
1.7 核心原则47
1.8 小结 .49
第2 章 数据创新战略步骤 .51
2.1 步骤1:战略规划.52
2.1.1 战略目标 .53
2.1.2 识别干系人 55
2.1.3 变更管理 .55
2.2 步骤2:采用云方法,降低总拥有成本 57
2.2.1 为什么云的成本更低.57
2.2.2 上云能省多少钱 59
2.2.3 上云时机 .59
2.3 步骤3:打破孤岛.60
2.3.1 统一数据访问 61
2.3.2 选择存储 .62
2.3.3 构建语义层 63
2.4 步骤4:在上下文更快决策 .65
2.4.1 从批处理到流处理 .65
2.4.2 上下文信息 66
2.4.3 成本管理 .66
2.5 步骤5:用AI 方案包跨越式发展 67
2.5.1 预测分析 .68
2.5.2 理解和生成非结构化数据 69
2.5.3 个性化 70
2.5.4 解决方案包 70
2.6 步骤6:运营由AI 驱动的工作流 71
2.6.1 找到自动决策和AI 辅助的最佳平衡点 71
2.6.2 营造数据文化 72
2.6.3 充实数据科学团队 .73
2.7 步骤7:将数据作为产品来管理 74
2.7.1 将产品管理原则应用于数据 .74
2.7.2 理解并维护企业的数据流地图 .74
2.7.3 识别关键指标 75
2.7.4 共识标准、承诺的路线图和愿景性待办事项 76
2.7.5 为现有客户构建产品.77
2.7.6 管理变更,勇于担责.78
2.7.7 客户访谈,发现数据需求 78
2.7.8 充分利用白板和原型.79
2.7.9 只构建立即就能投入使用的产品 79
2.7.10 标准化常用实体和KPI .80
2.7.11 数据平台提供自助服务 .80
2.8 小结 .80
第3 章 为数据团队而设计 .83
3.1 数据处理机构分类 83
3.2 数据分析驱动型机构 86
3.2.1 愿景 87
3.2.2 角色 88
3.2.3 技术框架 .90
3.3 数据工程驱动型机构 92
3.3.1 愿景 92
3.3.2 角色 94
3.3.3 技术框架 .96
3.4 数据科学驱动型机构 99
3.4.1 愿景 .100
3.4.2 角色 .102
3.4.3 技术框架 103
3.5 小结 104
第4 章 迁移框架 . 105
4.1 数据工作流现代化 .105
4.1.1 全局观 105
4.1.2 工作流现代化 .106
4.1.3 工作流自身的改造 108
4.2 四步走迁移框架 .109
4.2.1 准备和发现 . 110
4.2.2 评估和规划 . 110
4.2.3 执行 . 113
4.2.4 优化 . 115
4.3 评估迁移方案的总成本 116
4.3.1 审计现有基础设施 116
4.3.2 索取信息、建议和报价 . 117
4.3.3 概念验证和最小可行产品 118
4.4 建立安全和数据治理机制 . 119
4.4.1 框架 . 119
4.4.2 成果 .121
4.4.3 数据生命周期的治理工作 122
4.5 架构、流水线和数据迁移 .124
4.5.1 架构迁移 124
4.5.2 流水线迁移 .125
4.5.3 数据迁移 127
4.5.4 迁移阶段 132
4.6 小结 134
第5 章 构建数据湖 137
5.1 数据湖和云完美结合 137
5.1.1 数据湖本地部署的难点 .137
5.1.2 云数据湖的优点 138
5.2 设计和实现 139
5.2.1 批处理和流处理 139
5.2.2 数据目录 141
5.2.3 Hadoop 生态 143
5.2.4 云数据湖参考架构 144
5.3 集成数据湖:真正的超级力量 149
5.3.1 用API 扩展数据湖 149
5.3.2 数据湖演化:Apache Iceberg、Apache Hudi 和 Delta Lake 149
5.3.3 用笔记本作交互分析151
5.4 数据处理和报表民主化 153
5.4.1 建立对数据的信任 154
5.4.2 数据摄取仍是IT 部门的工作 .156
5.5 数据湖机器学习 .158
5.5.1 用原始数据训练 158
5.5.2 数据湖中作预测 159
5.6 小结 160
第6 章 用企业数据仓库创新 163
6.1 现代化数据平台 .163
6.1.1 机构目标 163
6.1.2 技术难点 165
6.1.3 技术趋势和工具 166
6.2 中心辐射架构 168
6.2.1 数据摄取 171
6.2.2 商业智能 176
6.2.3 转换 .179
6.2.4 机构结构 184
6.3 数据仓库赋能数据科学家 .186
6.3.1 查询接口 186
6.3.2 Storage API .187
6.3.3 不移动数据的机器学习 .188
6.4 小结 193
第7 章 湖仓一体融合架构 195
7.1 需要唯一架构 195
7.1.1 用户角色 195
7.1.2 反模式:各系统分离196
7.1.3 反模式:数据重复 196
7.2 融合架构.199
7.2.1 两种形式 199
7.2.2 云存储上的湖仓一体200
7.2.3 SQL 优先湖仓一体 205
7.2.4 融合的好处 .210
7.3 小结 212
第8 章 流式架构 . 213
8.1 流处理的价值 213
8.1.1 行业应用场景 .213
8.1.2 流处理应用场景 214
8.2 流式摄取.215
8.2.1 流式ETL 216
8.2.2 流式ELT 218
8.2.3 流式插入 219
8.2.4 边缘设备(IoT)流处理 220
8.2.5 流数据存储 .221
8.3 实时看板.222
8.3.1 实时查询 222
8.3.2 物化视图 223
8.4 流式分析.223
8.4.1 时间序列分析 .224
8.4.2 点击流分析 .225
8.4.3 异常检测 227
8.4.4 弹性流处理 .227
8.5 机器学习实现持续智能 228
8.5.1 用流数据训练模型 229
8.5.2 流式机器学习推断 232
8.5.3 自动操作 232
8.6 小结 233
第9 章 利用混合和边缘架构扩展数据平台 237
9.1 为什么采用多云 .237
9.1.1 单云更简洁、成本效益更高 237
9.1.2 多云不可避免 .238
9.1.3 多云可以成为一种策略 .239
9.2 多云架构模式 241
9.2.1 统一管理 241
9.2.2 一次编写,到处运行242
9.2.3 从本地平台突击上云243
9.2.4 从本地传递上云 245
9.2.5 流式数据集成 .246
9.3 采用多云策略 248
9.3.1 框架 .248
9.3.2 时间尺度 249
9.3.3 定义多云策略的目标架构 250
9.4 为什么采用边缘计算 252
9.4.1 带宽、时延和不稳定连接 252
9.4.2 应用场景 253
9.4.3 边缘计算的优势 255
9.4.4 挑战 .256
9.5 边缘计算架构模式 .256
9.5.1 智能设备 257
9.5.2 智能网关 257
9.5.3 机器学习激活 .258
9.6 采用边缘计算 260
9.6.1 初始背景 260
9.6.2 项目 .260
9.6.3 最终成果和下一步计划 .263
9.7 小结 264
第10 章 AI 应用架构 . 267
10.1 这是AI 和机器学习问题吗 268
10.1.1 AI 的子领域268
10.1.2 生成式AI 269
10.1.3 适合用机器学习解决的问题 273
10.2 购买、改造或构建 274
10.2.1 对数据的考量 274
10.2.2 何时购买 275
10.2.3 你可以买什么 276
10.2.4 如何改造已有模型 279
10.3 AI 架构 .281
10.3.1 理解非结构化数据 282
10.3.2 生成非结构化数据 284
10.3.3 预测结果 286
10.3.4 预测数值 287
10.3.5 异常检测 289
10.3.6 个性化 .290
10.3.7 自动化 .291
10.4 负责任的AI 293
10.4.1 AI 原则 294
10.4.2 机器学习的公平性 296
10.4.3 可解释性 296
10.5 小结 297
第11 章 构建机器学习平台 301
11.1 机器学习活动 301
11.2 开发机器学习模型 303
11.2.1 标注环境 303
11.2.2 开发环境 303
11.2.3 用户环境 304
11.2.4 准备数据 306
11.2.5 训练机器学习模型 307
11.3 部署机器学习模型 309
11.3.1 端点部署 309
11.3.2 评估模型 310
11.3.3 混合和多云 311
11.3.4 训练—服务偏差 . 311
11.4 自动化 316
11.4.1 自动化训练和部署 316
11.4.2 用流水线编排 317
11.4.3 持续评估和训练 .319
11.5 选择机器学习框架 320
11.5.1 团队技能 321
11.5.2 任务考量 322
11.5.3 以用户为中心 322
11.6 小结 323
第12 章 数据平台现代化:典型案例 325
12.1 新时代新技术 325
12.1.1 亟待改革 326
12.1.2 不只是技术问题 .327
12.2 旅程伊始 329
12.2.1 当前环境 329
12.2.2 目标环境 331
12.2.3 概念验证的应用场景 333
12.3 云供应商提交的RFP 响应文件 334
12.3.1 目标环境 334
12.3.2 迁移方法 338
12.4 RFP 评估过程 345
12.4.1 概念验证的范围 .345
12.4.2 执行概念验证 346
12.4.3 最终决策 347
12.5 结语 348
12.6 小结 349

商品参数
基本信息
出版社 中国电力出版社
ISBN 9787519899561
条码 9787519899561
编者 [意]马尔科·特兰克维林(Marco Tranquillin)[美]瓦利阿帕·拉克什曼南(Valliappa Lakshmanan)[英]菲拉特·泰基内尔(Firat Tekiner) 著 著
译者 杜春晓
出版年月 2025-06-01 00:00:00.0
开本 16开
装帧 平装
页数 368
字数 486000
版次 1
印次 1
纸张
商品评论

暂无商品评论信息 [发表商品评论]

商品咨询

暂无商品咨询信息 [发表商品咨询]