热门搜索: 中考 高考 考试 开卷17
服务电话 024-96192/23945006
 

R语言数据高效处理指南

编号:
wx1201943222
销售价:
¥49.56
(市场价: ¥59.00)
赠送积分:
50
数量:
   
商品介绍

(1)循序渐进式教学:本书由基础数据处理(base-r)—简洁高效数据处理(tidyverse生态系统)—高速数据处理(data.table)—分布式数据处理(sparklyr),从基础到进阶操作,一应俱全。(2)引导式教学:本书由浅入深,分层次讲解,每个知识点都配有可实现的代码辅助理解。(3)案例式教学:本书实战应用部分涵盖数据搜集、数据处理、网络爬虫、文本挖掘、数据可视化、机器学习等多个领域,代码可直接用于实际工作和生活中。

    R 语言在近10 年来已经发生了日新月异的变化,不仅在内容上更加丰富多彩,而且在计算效率上也有了大幅的提升。它被更加广泛地用于数据可视化、统计建模、机器学习等领域,而且还能实现网络爬虫、网络应用开发等功能,成为数据科学领域的型工具。R 语言在学术界的地位已经不容置疑,在大数据时代中它是保证研究可重复性的重要工具。随着功能的日益完善,R 语言已经进军工业界,并在金融、保险、医疗、生物和信息计量等不同的应用场景中大放异彩,潜力不可估量。    尽管R 语言能够实现丰富多样的实际功能和框架,但是其本质是面向数据的,因此数据处理是R 语言核心中的核心。如果能够掌握高效的数据操作技术,就能够在各类数据分析任务中如鱼得水。本书定位即为“R 语言数据处理101”,希望R 语言的使用者能够在较早的阶段就习得基本而有效的数据处理基本技术。    《R语言数据高效处理指南》读者群体包括在校的大学生、数据分析从业人员和致力于更加高效地处理数据的所有的R语言使用者。尽管对数据科学、计算机编程、统计学有一定基础会帮助理解本书的内容,但这不是必需的,来自包括初学者在内的各个层次的读者群体都能从本书中有所收获。读者在本书中不仅能够学到数据处理中的实用技术,还能培养在数据分析中的探索性思维。可以作为零基础学习数据分析的教程、进阶数据分析实用技巧的参考书、常备查询的案头工具书,以及具有一定趣味性的数据分析入门启蒙书。

    黄天元,复旦大学生态学博士在读,R语言忠实爱好者。热爱数据科学与开源工具,致力于利用数据科学迅速积累行业经验优势和科学知识发现,涉猎内容包括但不限于信息计量、机器学习、数据可视化、统计建模、知识图谱等。已发表SCI论文两篇,开设有知乎专栏“R语言数据挖掘”。

部分 基础知识...................1 章 数据处理总论.......................... 21.1  数据处理的定义 ....................21.2  数据处理的意义 ...................31.3  数据处理基本工具 ..................3第2 章 R 语言编程基础.................. 62.1  下载安装 ...................62.2  包的使用 ..................72.3  数据类型 .........................82.4  数据结构 ........................102.5  程序控制 ........................152.6  函数式编程 ....................17第3 章 数据处理基本范式....................... 19第2 部分 快速入门...................24第4 章 base-r:基本数据处理................. 254.1  数据集及其基本探索 .....................254.2  基本范式实现 ................274.2.1  创建(read.csv/data.frame) ................................274.2.2  删除(rm) .........................284.2.3  检索(DF[i,j]) ...................284.2.4  插入(rbind/cbind) ........................314.2.5  排序(order) .....................334.2.6  过滤(DF[condition,]) ...................354.2.7  汇总(apply) .....................364.2.8  分组(aggregate) ...........................364.2.9  连接(merge) ....................37第5 章 tidyverse 生态系统:简洁高效数据处理.................... 405.1  tidyverse 生态系统简介 ........................405.2  基本范式实现 ............................415.2.1  包的加载(p_load) ........................415.2.2  创建(read_csv/tibble) ..................425.2.3  删除(rm) .........................455.2.4  检索(select/slice) .........................465.2.5  插入(add/bind) ................505.2.6  排序(arrange) ..................545.2.7  过滤(filter) ......................565.2.8  汇总(summarise) .........................595.2.9  分组(group_by) ...........................615.2.10 连接(join) .....................635.3  不错处理工具 ................675.3.1 长宽数据变换(gather/spread) ..........................685.3.2  集合运算(intersect/union/setdiff) .....................705.3.3  窗口函数(rank/lead/lag/cum) ...........................745.3.4  连接数据库:对SQL 的支持(dbplyr) .........................815.3.5  巧妙写函数:变量的引用 ...............85第3 部分 不错进阶...................93第6 章 data.table:高速数据处理............... 946.1  data.table 简介 ...............946.2  基本范式实现 ................966.3  不错特性探索 ............................... 116第7 章 sparklyr: 分布式数据处理.................................. 1287.1  连接R 与Spark:sparklyr 包简介 ...............................1287.2  基本操作指南 ...............................1307.3  存储机制简介 ...............................1357.4  分布式计算 ..................136第4 部分 实战应用................. 139第8 章 航班飞行数据演练..................... 1408.1  nycflights13 数据集探索 ...........................1408.2  flights14 数据集探索 ....................148第9 章 测试..................... 1550 章 实用数据处理技巧..................... 15710.1  数据存取 ....................15710.1.1  令人头疼的编码格式(encoding) ..............................15710.1.2  读写性能竞速赛(fst/feather & data.table/readr) ....................15810.1.3  数据存取转换的瑞士军刀(rio) ...................16210.2  并行计算(doParallel) .........................16410.3  混合编程 ....................1681 章 实战案例:网络爬虫与文本挖掘............................. 17311.1  网络爬取(rvest) .....................17411.2  文本挖掘(tidytext).................1772 章 实战案例:数据塑型与可视化(ggplot2).....................18012.1  数据准备 ....................18112.2  柱状图(geom_bar) .................18212.3  折线图(geom_line) ................18312.4  饼图(ggpie) ............................18412.5  一行代码实现一页多图(gridExtra) .......................1863 章 实战案例:机器学习.................. 19313.1  机器学习概述 .............................19313.2  为什么要做机器学习 .................19313.3  如何入门机器学习 .....................19413.4  数据处理与机器学习 .................19513.5  案例分析:信贷风险预测模型构建 ...........................195致谢..............................204

商品参数
基本信息
出版社 北京大学出版社
ISBN 9787301306086
条码 9787301306086
编者 黄天元
译者 --
出版年月 2018-03-01 00:00:00.0
开本 16开
装帧 平装
页数 212
字数 309千字
版次 1
印次 1
纸张 一般轻型纸
商品评论

暂无商品评论信息 [发表商品评论]

商品咨询

暂无商品咨询信息 [发表商品咨询]