暂无商品咨询信息 [发表商品咨询]
畅销经典全新升级,和10000+学员一起跟杨俊老师学用大数据
围绕Hadoop、Spark、Flink三大主流平台,融合离线分析、实时计算、数据仓库、推荐系统与数据可视化五大核心场景,打造“数据采集-存储-计算-应用”全链路闭环
随书配备全套数据集、安装包、配置文件、海量教学视频(近30GB )
本书以一个完整的大数据项目为主线,系统性讲解Hadoop、Spark、Flink等主流大数据技术的核心原理与开发实践,融合离线分析、实时计算、数据仓库、推荐系统与数据可视化五大核心场景,打造“数据采集-存储-计算-应用”全链路闭环。全书共9章:大数据技术概述、搭建IDEA开发环境及Linux虚拟机、基于Hadoop构建大数据平台、基于HBase和Kafka构建海量数据存储与交换系统、用户行为离线分析—构建数据采集和分析平台、基于Spark的用户行为实时分析、基于Flink的用户行为实时分析、基于Flink的新闻资讯推荐系统、新闻资讯系统数据可视化。
相较第1版,本书进行了三方面的内容升级。技术版本革新:全面适配Hadoop 3生态、Spark结构化流处理及Flink流批一体架构,覆盖Exactly-Once语义、自适应调优等生产级特性;模块能力扩展:新增Hive与DataX多源异构数据仓库构建、Flink SQL流批一体化开发、机器学习融合的推荐系统开发三大实战模块;技术栈升级:数据可视化采用SpringBoot和Vue前后端分离架构,替代传统的Servlet、JSP方案,实现更高效的数据展示与交互设计。
本书既可以作为大数据工程师的开发手册,也可以作为高校大数据及相关专业的教材。
杨俊,大数据架构师。大数据技术达人,Hadoop源码级技术专家,擅长Hadoop、Spark、FIink等主流大数据生态技术。具有十
余年的大数据开发经验,参与过十余个重量级大数据项目。曾任广电数据咨询公司大数据高级架构师,负责大数据平台架构设计与实施,并构建企业级数据仓库。畅销书《Hadoop大数据技术基础与应用》作者。51CTO知名培训讲师,拥有40余万粉丝,具有丰富的大数据技术培训经验,为数十家企业、院校开展过大数据技术课程培训。
前言
第1章 大数据技术概述1
1.1 什么是大数据1
1.2 大数据平台架构1
1.2.1 数据获取2
1.2.2 数据存储2
1.2.3 数据处理3
1.2.4 交互式分析3
1.2.5 机器学习与数据挖掘4
1.2.6 资源管理4
1.3 大数据工程师的技能树5
1.3.1 主流程序开发语言5
1.3.2 大数据平台的构建5
1.3.3 大数据采集5
1.3.4 大数据存储与交换5
1.3.5 大数据离线计算6
1.3.6 大数据实时计算6
1.3.7 大数据挖掘6
1.4 大数据项目需求分析与架构设计6
1.4.1 项目需求分析6
1.4.2 系统整体架构设计8
1.4.3 架构设计及数据流程设计9
1.4.4 大数据平台规划10
1.5 本章小结11
第2章 搭建IDEA开发环境及Linux虚拟机12
2.1 搭建IDEA开发环境12
2.1.1 JDK 的安装与配置12
2.1.2 Maven 的安装与配置14
2.1.3 IDEA 的安装与配置16
2.1.4 使用IDEA构建Maven项目21
2.2 搭建Linux虚拟机22
2.2.1 安装Linux系统22
2.2.2 配置Linux静态IP23
2.2.3 Linux主机名和IP映射23
2.2.4 关闭Linux防火墙24
2.2.5 创建Linux用户和用户组24
2.2.6 Linux SSH免密登录25
2.3 本章小结26
第3章 基于Hadoop构建大数据平台27
3.1 ZooKeeper分布式协调服务27
3.1.1 ZooKeeper架构设计及原理27
3.1.2 ZooKeeper集群安装前的准备工作30
3.1.3 ZooKeeper集群的安装部署33
3.1.4 ZooKeeper shell的操作36
3.2 HDFS分布式文件系统37
3.2.1 HDFS架构设计及原理37
3.2.2 HDFS的高可用(HA)机制45
3.2.3 HDFS联邦机制47
3.3 YARN资源管理系统47
3.3.1 YARN架构设计及原理48
3.3.2 MapReduce on YARN工作流程51
3.3.3 YARN的容错性52
3.3.4 YARN的高可用(HA)机制52
3.3.5 YARN的调度器及使用53
3.4 Hadoop分布式集群的构建56
3.4.1 HDFS分布式集群的构建56
3.4.2 YARN分布式集群的构建61
3.4.3 Hadoop集群运行测试64
3.4.4 Hadoop集群调优65
3.5 MapReduce分布式计算框架67
3.5.1 MapReduce概述67
3.5.2 MapReduce编程模型69
3.5.3 MapReduce应用实例71
3.5.4 WordCount代码实现73
3.6 本章小结75
第4章 基于HBase和Kafka构建海量数据存储与交换系统76
4.1 构建HBase分布式实时数据库76
4.1.1 HBase概述76
4.1.2 HBase架构设计80
4.1.3 HBase分布式集群的构建81
4.1.4 HBase性能调优86
4.1.5 建立HBase新闻资讯业务表89
4.2 搭建Kafka分布式消息系统90
4.2.1 Kafka概述90
4.2.2 Kafka架构设计91
4.2.3 Kafka分布式集群的构建93
4.2.4 Kafka集群监控96
4.3 本章小结100
第5章 用户行为离线分析—构建数据采集和分析平台101
5.1 搭建Flume数据采集系统101
5.1.1 Flume概述101
5.1.2 Flume架构设计102
5.1.3 Flume环境的搭建105
5.1.4 构建Flume集群106
5.2 使用Flume采集用户行为数据108
5.2.1 Flume与Kafka集成108
5.2.2 Flume与HBase集成110
5.2.3 Flume与Kafka、HBase集成114
5.3 搭建Hive离线分析平台117
5.3.1 Hive概述117
5.3.2 Hive架构设计118
5.3.3 Hive的安装部署122
5.3.4 Hive与HBase集成126
5.3.5 基于Hive的用户行为数据离线分析127
5.4 搭建DataX业务数据采集平台130
5.4.1 DataX简介130
5.4.2 DataX架构原理132
5.4.3 DataX的安装部署134
5.4.4 DataX Web的安装部署135
5.4.5 新闻资讯业务概述137
5.4.6 新闻业务数据采集140
5.5 基于Hive构建新闻资讯数据仓库149
5.5.1 数据仓库概述149
5.5.2 数据仓库建模理论150
5.5.3 数据仓库设计及规范156
5.5.4 项目需求分析及架构设计159
5.5.5 搭建新闻资讯数据仓库160
5.5.6 报表数据导出174
5.6 本章小结179
第6章 基于Spark的用户行为实时分析180
6.1 Spark快速入门180
6.1.1 Spark概述180
6.1.2 Spark的极简安装181
6.1.3 Spark实现WordCount182
6.2 Spark Core的核心功能184
6.2.1 Spark架构的原理184
6.2.2 弹性分布式数据集(RDD)185
6.2.3 Spark算子187
6.2.4 Pair RDD及算子188
6.3 Spark分布式集群的构建189
6.3.1 Spark的运行模式189
6.3.2 Standalone模式集群的构建190
6.3.3 Spark on YARN模式集群的构建193
6.4 基于Spark Streaming的新闻资讯项目实时分析194
6.4.1 Spark Streaming概述194
6.4.2 Spark Streaming的运行原理195
6.4.3 Spark Streaming编程模型197
6.4.4 基于Spark Streaming的用户行为实时分析198
6.5 基于Spark SQL的新闻资讯项目离线分析204
6.5.1 Spark SQL架构原理204
6.5.2 Spark SQL与Hive、MySQL集成206
6.5.3 Spark SQL用户行为离线分析209
6.6 基于Spark Structured Streaming的新闻资讯项目实时分析213
6.6.1 Structured Streaming概述213
6.6.2 Structured Streaming编程模型213
6.6.3 基于Structured Streaming的用户行为实时分析214
6.7 本章小结219
第7章 基于Flink的用户行为实时分析220
7.1 Flink快速入门220
7.1.1 Flink概述220
7.1.2 Flink的极简安装224
7.1.3 Flink实现WordCount224
7.2 Flink架构原理230
7.2.1 Flink常见概念230
7.2.2 Flink运行时架构231
7.2.3 并行度232
7.2.4 算子链233
7.2.5 任务槽234
7.3 Flink分布式集群的构建235
7.3.1 Flink部署模式235
7.3.2 Flink Standalone运行模式236
7.3.3 Flink YARN运行模式240
7.4 基于Flink DataStream 的新闻资讯项目实时分析244
7.4.1 Flink DataStream的运行原理244
7.4.2 Flink DataStream的程序架构245
7.4.3 基于Flink DataStream的用户行为实时分析250
7.5 基于Flink SQL的新闻资讯项目实时分析256
7.5.1 Flink SQL的运行原理256
7.5.2 Flink SQL 与MySQL、Hive集成262
7.5.3 基于Flink SQL的用户行为实时分析267
7.6 本章小结271
第8章 基于Flink的新闻资讯推荐系统272
8.1 推荐系统快速入门272
8.1.1 推荐系统概述272
8.1.2 推荐系统的主流程273
8.1.3 推荐系统的召回路径274
8.1.4 推荐系统通用架构275
8.1.5 推荐系统分类276
8.1.6 推荐算法设计实例277
8.1.7 推荐系统评测282
8.2 推荐系统需求分析与架构设计285
8.2.1 推荐系统项目需求分析285
8.2.2 推荐系统项目核心模块285
8.2.3 推荐系统项目实现逻辑286
8.2.4 推荐系统项目核心架构287
8.2.5 搭建推荐系统开发环境287
8.3 推荐系统预处理模块开发288
8.3.1 准备数据源288
8.3.2 预处理逻辑290
8.3.3 预处理代码实现291
8.4 推荐系统召回模块开发294
8.4.1 召回原理294
8.4.2 召回模块代码实现298
8.5 推荐系统排序模块开发304
8.5.1 排序算法304
8.5.2 逻辑回归算法305
8.5.3 排序模块代码实现306
8.6 推荐系统调整模块开发307
8.6.1 实现原理307
8.6.2 调整模块代码实现309
8.7 推荐系统结果处理模块开发311
8.7.1 准备工作311
8.7.2 结果处理模块代码实现312
8.8 推荐模型优化与系统评价313
8.8.1 推荐模型优化:让算法越学越聪明313
8.8.2 推荐系统评价:实战检验效果313
8.8.3 避“坑”指南:别让指标骗了你314
8.8.4 总结:优化是永无止境的旅程314
8.9 本章小结314
第9章 新闻资讯系统数据可视化315
9.1 系统架构与数据接口设计315
9.1.1 需求分析与架构设计315
9.1.2 数据表结构与接口定义318
9.2 后端开发:SpringBoot数据服务319
9.2.1 SpringBoot基础框架搭建319
9.2.2 后端核心接口开发323
9.3 前端开发:Vue实现展示与交互324
9.3.1 Vue基础框架搭建324
9.3.2 前端核心代码开发327
9.4 项目打包与轻量部署328
9.4.1 跨域问题解决328
9.4.2 项目打包与部署329
9.5 新闻资讯数据展示与分析334
9.6 本章小结336
| 基本信息 | |
|---|---|
| 出版社 | 机械工业出版社 |
| ISBN | 9787111798538 |
| 条码 | 9787111798538 |
| 编者 | 杨俊 王年明 谢志刚 著 |
| 译者 | -- |
| 出版年月 | 2026-01-01 00:00:00.0 |
| 开本 | 16开 |
| 装帧 | 平装 |
| 页数 | 336 |
| 字数 | 587 |
| 版次 | 2 |
| 印次 | 1 |
| 纸张 | 一般胶版纸 |
暂无商品评论信息 [发表商品评论]
暂无商品咨询信息 [发表商品咨询]