暂无商品咨询信息 [发表商品咨询]
本书是一本全面介绍Spark以及Spark生态系统相关技术的书籍。主要内容包括Spark系统概述、Spark安装和集群的部署、RDD的编程实践、Spark的运行模式、Spark的运行机制以及Spark的四大子框架(Spark SQL、Spark Streaming、Spark GraphX、MLlib)的详细讲解。本书通过理论和实践相结合的方式对Spark的核心框架和生态圈做了详细的解读,不仅对Spark的原理进行详细阐述,还结合Spark的源码和案例操作展示了Spark框架的所具有的优雅和丰富的表现力。
本书适合大数据从业者、Spark技术爱好者阅读。相信通过学习本书,读者能够熟悉和掌握Spark这一当前流行的大数据计算框架,并将其投入到实践中去。
第1章Spark系统概述
11Spark是什么
12Spark生态系统BDAS
121Spark Core
122Spark SQL
123Spark Streaming
124Spark GraphX
125MLlib
126Tachyon
127BlinkDB
思考题
第2章Spark安装和集群部署
21搭建Hadoop分布式集群
211安装VMware虚拟机
212安装Ubuntu的镜像文件
213安装JDK
214搭建另外两台Ubuntu系统并配置SSH免密码登录
215安装Hadoop和搭建Hadoop分布式集群
22Spark安装和集群部署
221安装Scala
222安装Spark和集群部署
23测试Spark集群
231通过Spark提供的示例LocalPi测试Spark集群
232通过Spark Shell测试Spark集群
思考题
第3章Spark RDD与Spark API编程实践
31RDD介绍
311RDD是Spark的核心抽象
312RDD的特征
32RDD的操作分类
321输入操作
322转换操作
323行动操作
324控制操作
33Spark Shell下的Spark API编程实践
331Local模式下实践map、filter和collect方法
332集群模式下实践textFile、sortByKey和 saveAstextFile方法
333集群模式下实践union、join、reduce和lookup方法
334搜狗日志数据分析实践
34基于IntelliJ IDEA使用Spark API开发应用程序
341搭建和设置IntelliJ IDEA开发环境
342在IntelliJ IDEA下开发并部署Spark应用程序
343使用SBT编译Spark应用程序
344使用Maven构建Spark应用程序
345Spark工具
思考题
第4章Spark的运行模式
41Spark的运行模式概览
411Spark的基本工作流程
412Spark应用程序部署
42Local模式
421Local模式实例部署及运行演示
422Local模式内部实现原理
43Standalone模式
431Standalone模式实例部署及运行演示
432Standalone模式内部实现原理
44Yarn-Cluster模式
441Yarn-Cluster模式实例部署及运行演示
442Yarn-Cluster模式内部实现原理
45Yarn-Client模式
451Yarn-Client模式实例部署及运行演示
452Yarn-Client模式内部实现原理
46Mesos模式
461Mesos模式实例部署及运行演示
462Mesos模式内部实现原理
思考题
第5章Spark的运行机制
51Spark集群的架构
52Spark的作业和任务调度
521Spark Application提交
522作业(Job)提交
523DAGScheduler划分Stage并提交
524TaskScheduler提交Task
525Executor运行Task并返回结果
526Driver的处理
53容错机制
531Lineage机制
532Checkpoint机制
54Storage存储模块
541Storage模块整体架构
542缓存实现原理
543缓存策略
55Spark的消息传递机制Akka
551Akka架构解析
552Akka驱动下的start-allsh源码解析
56Shuffle机制
561Shuffle的原理
562Shuffle的写操作
563Shuffle的读操作
57共享变量
571广播变量
572累加器
58Spark性能调优
581数据序列化
582内存优化
583其他优化方法
思考题
第6章Spark SQL
61Spark SQL原理和实现
611Spark SQL简介
612Spark SQL运行架构
613Hive在Spark上的使用
614源码解析SQL语句和HiveQL语句的执行过程
62Spark SQL的操作实例
621文本文件操作以及DSL操作
622Parquet文件以及JSON文件操作
623Hive数据操作演示(订单交易数据操作)
624Spark SQL处理交通数据实战
思考题
第7章Spark Streaming
71Spark Streaming运行原理
711Spark Streaming简介
712编程模型DStream
713容错和持久化
714性能调优
715监控应用
72源码解析Spark Streaming的运行过程
721StreamingContext初始化并启动
722数据接收
723数据处理
73Spark Streaming操作实例演示
731文本数据操作实例演示
732网络数据操作实例——销售模拟器演示
733有状态(Stateful)操作实例演示
734Window操作实例演示
735SparkStreaming处理多源数据实战
思考题
第8章Spark GraphX
81图的定义和应用
811图的定义
812图的应用
82Spark GraphX简介
821弹性分布式属性图
822Spark GraphX图的切分和存储策略
823Spark GraphX图的操作
83Spark GraphX架构
831Pregel图计算框架
832Spark GraphX的实现
833Spark GraphX图算法的实现方法
84Spark GraphX图操作实例
841基于Spark GraphX的属性图的操作实例
842Spark GraphX图算法操作实例
思考题
第9章MLlib
91机器学习简介
911机器学习的定义
912机器学习的分类
913机器学习的常用算法
92MLlib的简介
921什么是MLlib
922MLlib的架构
923MLlib的数据类型
924MLlib的算法
93MLlib常用算法操作实践
931K-Means算法解析和实践
932协同过滤算法分析和案例实践
思考题
基本信息 | |
---|---|
品牌/出版社 | 机械工业出版社 |
ISBN | 9787111528609 |
条码 | 9787111528609 |
编者 | 王家林 |
译者 | |
出版年月 | 2016.04 |
开本 | |
装帧 | |
页数 | |
字数 | |
版次 | |
印次 | |
纸张 |
暂无商品评论信息 [发表商品评论]
暂无商品咨询信息 [发表商品咨询]