本书通过全彩图解+视频讲解的方式, 详细介绍了利用R语言进行数据分析的相关知识与实操案例。主要内容包括: R语言快速入门、R语言数据管理与操作、R语言数据可视化、R语言数据分析、综合案例1-中药材鉴别、综合案例2-抗乳腺癌候选药物分析、综合案例3-新闻文本内容数据分析。
本书主要具有以下特色:
1.内容全面,循序渐进。本书围绕R语言数据分析相关语法和常用数据分析包展开,内容由浅入深,非常适合初学者学习。
2.案例丰富,实用性强。书中选取了不同场合下的各种数据分析案例,不仅中间穿插有小案例,书末还有综合性的大案例,通过案例实操,让读者能够快速掌握所学知识,并应用到实际工作中。
3.全彩图解,直观易懂。本书采用全彩印刷,书中通过大量的彩色图片展示,让读者一目了然,迅速了解并掌握具体的操作方法、步骤以及实现效果。
4.学习资源,超值赠送。重要知识点及实战案例均配有二维码视频讲解,扫码观看,学习更便捷。此外,还附赠相关实例素材源文件、电子书等资源,方便实践练习与知识拓展。
R语言是一套完整的数据准备、处理、分析与可视化的科学系统,对数据科学、机器学习及深度学习,均有一套完备的解决方案。其最先在国外流行,传入我国后,迅速受到高校以及各行业的喜爱,大多数高校都将R语言作为统计学的编程入门课,其受欢迎程度远远领先于大多数商业统计软件。
本书是R语言在数据分析方面从入门到提升的教程,将R语言编程与数据分析实战案例紧密结合,可帮助读者快速掌握R语言进行数据分析。
本书一共有8章。各章的内容设置如下。
第1章 R语言与数据分析。该章主要介绍R与RStudio的安装与使用,数据分析的简要内容,以及R语言在数据分析上的优势等。帮助读者快速建立起对R语言数据分析的全面认知,为后面的学习做准备。
第2章 R语言快速入门。该章主要是对R语言的使用进行快速入门,详细介绍向量、矩阵、数组、数据框、列表、判断与循环语句,以及如何编写R函数等内容。
第3章 R语言数据管理与操作。该章主要介绍R语言中如何对数据进行导入与保存、缺失值处理,数据并行计算,数据选择、分组计算,数据融合以及数据长宽变换,时间数据与文本数据的操作等内容。
第4章 R语言数据可视化。该章主要介绍R语言中流行的数据可视化方式的使用,主要包括基础数据可视化包graphics的使用,ggplot2绘图系统的使用,以及R语言中其它常用的第三方数据可视化包的使用。
第5章 R语言数据分析。该章主要介绍常用数据分析方法,如相关性分析、方差分析、数据降维算法、数据回归分析、数据分类算法、数据聚类算法以及时间序列预测相关的算法等,并使用R语言结合实际的数据集进行数据分析实战。
第6章 综合案例1:中药材鉴别。该章从数据分析实战应用出发,结合真实的中药材红外特征数据集,介绍了如何利用R语言将数据可视化、数据分析,以及机器学习算法相结合,对中药材鉴别中的相关问题进行分析和处理。在应用无监督学习时,主要使用聚类算法对数据进行聚类分析,使用数据降维算法对数据进行降维分析;在使用有监督学习时,主要以特征选择、数据降维与分类算法相结合的方式,对数据进行分类。
第7章 综合案例2:抗乳腺癌候选药物分析。该章使用R语言分析了一个抗乳腺癌候选药物数据分析案例,主要介绍数据可视化探索分析、数据重要特征选择、数据回归分析算法、数据降维算法,以及数据分类等算法的应用。
第8章 综合案例3:文本内容数据分析。该章以R语言对新闻文本数据、《三国演义》文本数据进行分析为例,主要介绍在文本分析中常用的数据准备与清洗、特征提取、文本数据可视化、文本聚类、文本分类等相关方法的应用。
本书内容丰富,由易到难、逐步深入,所选用的案例很有代表性,且每章均配有大量的示例代码和详细注释(关于程序和数据文件,可前往化学工业出版社官网www.cip.com.cn/Service/Download搜索本书并获取配套资源的下载地址),便于读者自己动手练习。
由于编著者水平有限,编写时间仓促,书中难免存在疏漏,敬请读者不吝指正。
编著者