本书以Kettle工具实现ETL流程为目标,将ETL知识点与项目任务相结合,配套真实的案例,按照ETL的流程,循序渐进地介绍了ETL数据整合与处理的相关内容。全书共6个项目,项目1介绍了ETL概念和ETL工具;项目2以食品销售数据为例,介绍了获取不同类型源数据的方法,并说明了它们之间的差别;项目3以整合和处理某供应链的
本教材紧扣行业脉搏,以大数据与云计算技术在建筑领域的探索实践与场景应用为核心,精心编排内容。教材引入了行业一线的项目案例与工作场景,让适用性的理论知识与实际应用紧密结合,且生动形象。教材以大数据与云计算概述、大数据采集与预处理、大数据存储、大数据分析与挖掘、大数据可视化、大数据治理、虚拟化技术、云数据中心与云存储、并行
本书是一本全面深入探讨ApacheSpark的实用指南。从Spark基础入门开始,逐步深入到高级应用和优化技巧,涵盖了Spark生态系统的核心组件,包括RDD、SparkSQL、结构化流处理和MLlib。通过十个精心设计的单元,读者将系统地学习Spark的理论知识和实践技能。每个单元都包含具体任务,帮助读者将所学付诸实
本书分为问道、执具、博术三个篇章,介绍智能数据分析的方法论、编程工具及算法模型。问道篇介绍数据分析的核心理念、一般过程及思维方式,旨在阐扬数据分析的哲理;执具篇介绍R语言环境配置、基础编程、数据对象,旨在阐述数据分析的先进工具;博术篇介绍数据可视化、关联规则、分类、聚类等主流技术,旨在阐明数据分析的算法模型及其R语言实
本书围绕时空大数据云平台开发需求,介绍了时空大数据云平台的基本概念、业务流程,对时空大数据云平台的关键特性、软件特性进行了总结,并对其涉及的关键技术分别进行了阐述。然后详细讲述了时空大数据云平台的组成,对其平台架构、各个子系统和工具进行了介绍,并以市级时空大数据云平台为例详细介绍了具体建设方案,为企事业单位和政府部门信
本书采用理论与实践相结合的方式,系统介绍了大数据技术的相关知识。全书共8章,内容包含大数据的基本概念、大数据处理架构、Hadoop环境设置、分布式文件系统HDFS、资源调度框架YARN、分布式并行编程模型MapReduce、分布式数据库Hbase、数据仓库Hive和Hadoop生态系统常用功能组件。本书内容丰富,教师可
本书主要对数据驱动的用户画像推断这一领域方向的研究工作进行总结,阐述最新的理论研究成果。前两章阐述用户画像的基本概念、用户画像推断新范式及研究意义,总结现阶段的相关研究工作;第三、四章介绍数据挖掘和机器学习相关理论基础;第五章到第九章重点介绍本书在用户画像推断领域的研究成果,包括:基于电商数据的用户基本属性推断、基于问
本书是将大数据这一计算机前沿科学理论和基本应用有机结合的典型教材,全面介绍了大数据及其相关的基础知识,由浅入深地剖析了大数据的分析处理方法和技术手段,重点介绍了大数据最新的发展趋势和技术成果。大数据应用基础内容丰富、条理清晰、示例指导性强,读者可以通过章后的习题对所学内容作进一步巩固,熟练掌握大数据基本原理、工程应用场
本书是一本专为数据科学和信息技术学习者策划编写的教材,全面共分为六个核心项目,从基础的理论知识到具体的技术应用,系统地介绍了数据采集的理论与实践。项目内容包括数据采集的基础知识、网络爬虫技术、WebAPI数据采集、传感器数据采集、Kettle数据迁移与采集,以及数据存储技术。每个项目都旨在使读者能够将理论知识应用于实践
本书结合作者多年来的研究成果,系统阐述具有通信约束的离散多智能体系统一致性与协同控制的理论和方法。主要包括:绪论、无领航同构离散多智能体系统的状态一致性、无领航异构离散多智能体系统的一致性、离散多智能体系统的领导跟随一致性、网络化多智能体系统的分组一致性、具有参考信号的离散异构多智能体系统的输出跟踪控制。