热门搜索: 中考 高考 考试 开卷17
服务电话 024-96192/23945006
 

PYTHON数据分析与大数据处理从入门到精通

编号:
wx1201973534
销售价:
¥74.76
(市场价: ¥89.00)
赠送积分:
75
数量:
   
商品介绍

(1)全面:数据分析与大数据处理所需的所有技术,包含基础理论、核心概念、实施流程,从编程语言准备、数据采集与清洗、数据分析与可视化,到大型数据的分布式存储与分布式计算等。(2)深入:一本书讲透1种编程语言和14种数据分析与大处理工具,以及大数据分析技术及项目开发方法。(3)丰富:包含45个“新手问答”、17个章节的“实训”、3个项目综合实战、50道Python面试题精选。

    《Python数据分析与大数据处理从入门到精通》主要讲解数据分析与大数据处理所需的技术、基础设施、核心概念、实施流程。从编程语言准备、数据采集与清洗、数据分析与可视化,到大型数据的分布式存储与分布式计算,贯穿了整个大数据项目开发流程。本书轻理论、重实践,目的是让读者快速上手。1篇首先介绍了Python的基本语法、面向对象开发、模块化设计等,掌握Python的编程方式。然后介绍了多线程、多进程及其相互间的通信,让读者对分布式程序有个基本的认识。第2篇介绍了网络数据采集、数据清洗、数据存储等技术。第3篇介绍了Python常用的数据分析工具,扩展了更多的数据清洗、插值方法,为很终的数据可视化奠定基础。第4篇是大数据分析的重点。首先介绍了Hadoop的框架原理、调度原理,MapReduce原理与编程模型、环境搭建,接着介绍了Spark框架原理、环境搭建方式,以及如何与Hive等第三方工具进行交互,还介绍了近期新的结构化流式处理技术。第5篇通过三个项目实例,综合介绍了如何分析网页、如何搭建分布式爬虫、如何应对常见的反爬虫、如何设计数据模型、如何设计架构模型、如何在实践中综合运用前四篇涉及的技术。本书既适合非计算机专业的编程“小白”,也适合刚毕业或即将毕业走向工作岗位的广大毕业生,以及已经有编程经验,但想转行做大数据分析的专业人士。同时,还可以作为广大职业院校、电脑培训班的教学参考用书。

    朱春旭,不错软件工程师,长期对企业、软件开发公司、政府机构培训大数据开发与应用课程,对Python大数据处理与分析相关应用有深入研究,并编写有《极客内参-大数据开发实战》教程45篇,总共30000+字。

篇 Python程序设计 章 Python入门31.1  Python概述41.2  搭建Python开发环境61.3  Python开发工具介绍111.4  Python软件包的管理131.5  实训:编写“Hello World”15本章小结16第2章 Python基础172.1  变量182.2  标识符242.3  代码组织262.4  输入与输出282.5  运算符与优先级302.6  新手问答302.7  实训:设计一个简易计算器31本章小结31第3章 数据类型与流程控制323.1  数字类型333.2  字符串类型373.3  集合类型403.4  流程控制语句453.5  新手问答473.6  实训:设计算法,输出乘法表49本章小结50第4章 函数、模块、包514.1  自定义函数524.2  函数参数554.3  函数式编程584.4  模块与包634.5  新手问答654.6  实训:设计算法,对列表进行排序67本章小结68第5章 面向对象的程序设计695.1  面向对象705.2  自定义类715.3  属性735.4  方法795.5  类的继承835.6  可调用对象865.7  不可变对象875.8  新手问答885.9  实训:设计算法,构造一棵二叉树90本章小结92第6章 不错主题936.1  生成器946.2  迭代器966.3  异步处理976.4  错误、调试1036.5  新手问答1086.6  实训:使用多进程技术统计数据并汇总109本章小结110第2篇 数据采集与数据清洗第7章 网络数据采集1137.1  HTTP请求概述1147.2  XPath网页解析1147.3  Scrapy数据采集入门1197.4  Scrapy应对反爬虫程序1267.5  CrawlSpider类1317.6  分布式爬虫1327.7  新手问答1367.8  实训:构建百度云音乐爬虫136本章小结139第8章 数据清洗1408.1  数据清洗的意义1418.2  数据清洗的内容1418.3  数据格式与存储类型1428.4  数据清洗的步骤1458.5  数据清洗的工具1478.6  新手问答1518.7  实训:清洗百度云音乐数据并储存到CSV  151本章小结152第3篇 数据分析与可视化第9章 NumPy数值计算1559.1  NumPy基础1569.2  形状操作1649.3  副本、浅拷贝和深拷贝1669.4  不错索引1689.5  排序统计1719.6  新手问答1739.7  实训:销售额统计  174本章小结1750章 Matplotlib可视化17610.1  图形的基本要素17710.2  绘图基础17710.3  设置样式18610.4  图形样例18910.5  新手问答19810.6  实训:营业数据可视化199本章小结2011章 Pandas统计分析20211.1  Pandas数据结构20311.2  基础功能21011.3  统计分析21711.4  时间数据22911.5  数据整理23111.6  不错功能23411.7  读写MySQL数据库23611.8  新手问答23711.9  实训:成绩分析237本章小结2392章 Seaborn可视化24012.1  Seaborn概述24112.2  可视化数据关系24212.3  根据数据分类绘图24612.4  单变量与双变量25112.5  线性关系25612.6  新手问答25812.7  实训:成绩分析可视化258本章小结260第4篇 大数据存储与快速分析篇3章 Hadoop数据存储与基本操作26313.1  Hadoop概述26413.2  Hadoop数据存储与任务调度原理26813.3  Hadoop基础环境搭建27313.4  Hadoop部署模式29413.5  Hadoop常用操作命令29813.6  新手问答30013.7  实训:动手搭建Hadoop集群环境301本章小结3094章 Spark入门31014.1  Spark概述31114.2  Spark核心原理31214.3  Spark基础环境搭建31514.4  Spark运行模式31714.5  新手问答32114.6  实训:动手搭建Spark集群322本章小结3235章 Spark RDD编程32415.1  RDD设计原理32515.2  RDD编程32815.3  键值对RDD33515.4  文件读写34015.5  编程进阶34215.6  新手问答34715.7  实训:统计海鲜销售情况348本章小结3506章 Spark SQL编程35116.1  Spark  SQL概述35216.2  创建DataFrame对象36016.3  DataFrame常用API36416.4  保存DataFrame37016.5  新手问答37216.6  实训:统计手机销售情况373本章小结3757章 Spark流式计算编程37617.1  流计算简介37717.2  Discretized Stream37917.3  Structured Streaming38517.4  新手问答39717.5  实训:实时统计贷款金额397本章小结398第5篇 项目实战篇8章 分析电商网站销售数据40118.1  目标分析40218.2  数据采集40518.3  数据分析411本章小结4169章 分析旅游网站数据41719.1  目标分析41819.2  数据采集42019.3  数据分析425本章小结429第20章 分析在售二手房数据43020.1  目标分析43120.2  数据采集43420.3  数据分析440本章小结446附录:Python常见面试题精选447主要参考文献450

    Python 的创始人是Guido van Rossum。1991 年,个用C 语言开发的Python 编译器诞生。1996 年,Python 发行了个公开版本1.4。由于其简单、易用、可以移植等特点,Python 得到了飞速发展。在编写本书时,近期新主要版本已经是3.7 版本。Python 版本发布进程如下。1996 年至2000 年,发布的Python 版本是 1.4-1.6。2000 年至2008 年,发布的Python 版本是 2.0-2.7。2008 年至2018 年,发布的Python 版本是 3.0-3.7。请注意,2008 年后,Python 开始同时维护2.X 和3.X 两个版本。这是因为当时很多系统都不能正常升级到3.0 版本,于是后来开发了2.7 版本作为过渡。Python 从诞生起就具有类、函数、异常处理、表、字典等核心数据类型,同时支持用“模块”来扩展功能。在Python 的发展进程中,开发者不断加入lambda、map、 f ilter 和reduce 等高阶函数,极大地丰富了Python 的API。同时引入了垃圾回收器等不错功能,简化了程序员对内存的手动管理流程。当前的版本中,Python 已经具备了以下重要的语言特性。(1)有多种基本数据类型可供选择:数字(浮点数、复数和无限长整数)、字符串(ASCII和Unicode)、列表和字典。(2)支持使用类和多继承的面向对象编程。(3)代码可以分为模块和包。(4)支持引发和捕获异常,从而实现更清晰的错误处理。(5)数据类型是强类型和动态类型。混合不兼容的类型(如尝试添加字符串和数字)会导致异常,从而能够更快地捕获错误。(6)包含不错编程功能,如生成器和列表推导。(7)其自动内存管理功能使用户不必在代码中手动分配和释放内存。

商品参数
基本信息
出版社 北京大学出版社
ISBN 9787301307656
条码 9787301307656
编者 朱春旭
出版年月 2018-01-01 00:00:00.0
开本 16开
装帧 平装
页数 464
字数 718000
版次 1
印次 1
商品评论

暂无商品评论信息 [发表商品评论]

商品咨询

暂无商品咨询信息 [发表商品咨询]