暂无商品咨询信息 [发表商品咨询]
本书是数据工程师的实战宝典!从实体消解基础概念切入,系统拆解数据标准化、文本模糊匹配(Levenshtein距离、Metaphone算法)、概率模型(Fellegi-Sunter模型、贝叶斯因子)、聚类分块等核心技术,更独家涵盖Splink框架、谷歌云Dataproc集群部署、企业知识图谱API等前沿工具。作者以真实金融反欺诈案例贯穿全书,手把手教学Python代码实现,并前瞻隐私集合求交(PSI)等合规技术。经Splink工具作者Robin Linacre力荐,既是新手入门教材,也是资深从业者的技术进阶手册。
在数据驱动时代,实体消解技术是打通数据孤岛的核心利器。本书以Python为工具,系统讲解从数据清洗到云端大规模部署的全流程技术:
·基础原理:解析实体消解5大步骤(数据标准化、分块、属性比较、匹配分类、聚类),直面姓名模糊、数据缺失、跨源匹配等实战难题;
·算法攻坚:详解编辑距离、Jaro-Winkler相似度等文本匹配技术,结合贝叶斯定理、期望zui大化算法构建概率匹配模型;
·工具实战:基于Splink实现企业级数据消解,通过谷歌云平台扩展至百万级数据集;
·前沿拓展:引入隐私增强技术(PSI),平衡数据利用与合规风险。
全书配套GitHub代码库,以英国公司注册署、海事署等真实数据演示跨领域(金融风控、供应链管理)场景应用,助力读者构建可复用的数据资产整合方案。
目录
前言1
第1章 实体消解入门7
1.1 什么是实体消解7
1.2 实体消解的作用8
1.3 实体消解的主要挑战9
1.3.1 姓名缺少唯一性9
1.3.2 命名约定不一致9
1.3.3 数据获取不一致10
1.3.4 示例11
1.3.5 故意模糊处理12
1.3.6 匹配组合12
1.3.7 盲目匹配13
1.4 实体消解过程13
1.4.1 数据标准化14
1.4.2 记录分块14
1.4.3 属性比较14
1.4.4 匹配分类14
1.4.5 聚类14
1.4.6 规范化15
1.4.7 示例15
1.5 评估结果16
1.6 正式开始17
第2章 数据标准化19
2.1 案例19
2.2 设置环境20
2.3 获取数据22
2.3.1 维基百科数据22
2.3.2 TheyWorkForYou数据24
2.4 清洗数据26
2.4.1 清洗维基百科数据26
2.4.2 清洗TheyWorkForYou数据27
2.5 比较属性28
2.6 选区29
2.7 评估结果33
2.8 计算样本34
2.9 总结35
第3章 文本匹配36
3.1 编辑距离匹配36
3.1.1 Levenshtein距离37
3.1.2 Jaro相似度38
3.1.3 Jaro-Winkler相似度39
3.2 语音匹配41
3.2.1 Metaphone算法41
3.2.2 MRA算法41
3.3 技术比较41
3.4 案例42
3.5 全面相似度比较44
3.6 评估结果47
3.7 总结48
第4章 概率匹配49
4.1 案例49
4.2 单一属性匹配概率51
4.2.1 名字匹配概率51
4.2.2 姓氏匹配概率52
4.3 多属性匹配概率53
4.4 概率模型55
4.4.1 贝叶斯定理55
4.4.2 m值56
4.4.3 u值57
4.4.4 λ值57
4.4.5 贝叶斯因子58
4.4.6 Fellegi-Sunter模型58
4.4.7 匹配权重59
4.5 期望最大化算法60
4.5.1 第一次迭代60
4.5.2 第二次迭代62
4.5.3 第三次迭代63
4.6 Splink入门65
4.6.1 配置Splink65
4.6.2 Splink匹配结果68
4.7 总结71
第5章 记录分块72
5.1 案例72
5.2 获取数据73
5.2.1 维基百科数据73
5.2.2 英国公司注册署数据74
5.3 数据标准化75
5.3.1 维基百科数据75
5.3.2 英国公司注册署数据76
5.4 记录分块与属性比较76
5.4.1 使用Splink进行记录分块77
5.4.2 比较属性78
5.5 匹配分类82
5.6 评估结果84
5.7 总结84
第6章 匹配公司85
6.1 案例85
6.2 获取数据86
6.3 数据标准化86
6.3.1 英国公司注册署数据87
6.3.2 英国海事及海岸警卫署数据88
6.4 记录分块与属性比较89
6.5 匹配分类92
6.6 评估结果94
6.7 匹配新实体96
6.8 总结97
第7章 聚类98
7.1 简单精确匹配聚类99
7.2 近似匹配聚类101
7.3 案例104
7.3.1 获取数据104
7.3.2 数据标准化105
7.4 记录分块与属性比较105
7.4.1 数据分析106
7.4.2 期望最大化分块规则106
7.5 匹配分类与聚类110
7.6 簇可视化112
7.7 聚类分析113
7.8 总结117
第8章 使用谷歌云平台进行扩展119
8.1 谷歌云设置120
8.2 创建Dataproc集群124
8.3 配置Dataproc集群128
8.4 使用Spark进行实体消解130
8.5 评估结果133
8.6 整理工作133
8.7 总结134
第9章 实体消解云服务135
9.1 BigQuery简介135
9.2 企业知识图谱 API138
9.2.1 模式映射138
9.2.2 消解作业140
9.2.3 处理结果145
9.2.4 实体消解Python客户端147
9.3 评估结果149
9.4 总结150
第10章 利用记录关联技术保护隐私151
10.1 隐私集合求交简介151
10.2 PSI原理152
10.3 基于ECDH的PSI协议154
10.3.1 布隆过滤器154
10.3.2 格伦布编码集157
10.4 案例:使用PSI160
10.4.1 设置环境160
10.4.2 服务器代码163
10.4.3 客户端代码165
10.4.4 完整的MCA和公司注册署样本示例170
10.5 总结172
第11章 进一步探讨173
11.1 数据问题探讨173
11.1.1 非结构化数据问题173
11.1.2 数据质量问题174
11.1.3 时效性问题174
11.2 属性比较175
11.2.1 集合匹配175
11.2.2 地理编码位置匹配175
11.2.3 汇总比较176
11.3 后处理176
11.4 图形表示178
11.5 实时性问题178
11.6 评估结果179
11.6.1 成对方法180
11.6.2 基于簇的方法180
11.7 实体消解的未来181
基本信息 | |
---|---|
出版社 | 机械工业出版社 |
ISBN | 9787111783299 |
条码 | 9787111783299 |
编者 | [英]迈克尔·希勒(Michael Shearer) 著 |
译者 | |
出版年月 | 2025-06-01 00:00:00.0 |
开本 | 16开 |
装帧 | 平装 |
页数 | 184 |
字数 | 202 |
版次 | 1 |
印次 | 1 |
纸张 | 一般胶版纸 |
暂无商品评论信息 [发表商品评论]
暂无商品咨询信息 [发表商品咨询]