本书精心编排为15章,内容包括Spark简介、Spark集群环境部署、Spark编程体验、RDD深度解读、RDD的Shuffle详解、Spark共享变量、Spark序列化和线程安全、Spark内存管理机制、SparkSQL简介、SparkSQL抽象编程详解、SparkSQL自定义函数、SparkSQL源码解读、Spar
本书着重介绍大数据建模与分析中常用的概率极限理论,主要内容包括相依随机变量和过程的极限理论、Stein方法及其应用、自正则化极限理论、高维样本协方差矩阵的谱统计量渐近分布理论、随机梯度方法及其应用、随机复杂网络的整体和局部结构、分布式统计推断方法和渐近理论、Gauss逼近原理及其应用等。
本书以数据智能技术为核心,深入剖析了其在全球数据爆炸性增长背景下的应用与发展。内容涵盖自然语言文字、图像识别、视频、音频、时间序列、时空、社交网络、生物信息学及多模态等9大关键领域数据的分析与处理。全书系统回顾了每个领域中的基础理论、关键技术进展及其实际应用案例,理论与实践紧密结合,条理清晰,并提供丰富的习题和参考文献
本书是大数据新兴领域“十四五”高等教育教材。本书主要介绍数据全与隐私保护的相关知识、技术和方法,主要内容包括:导论、密码学、数据存储与处理安全、数据传输安全、身份认证与访问控制、数据隐私保护、大数据算法安全与隐私保护、隐私保护案例分析,涉及数据存储、数据处理、数据传输、数据共享和数据使用等生命周期的安全保护,以及隐私保
本书是大数据新兴领域“十四五”高等教育教材。本书系统、全面地阐述了大数据管理的基本概念、技术和方法。全书分为三篇,共9章。第一篇为数据管理系统概述,包含第1章,综述了数据管理系统发展所经历的四个阶段,以及大数据管理系统的数据特征和系统特征,阐述了大数据管理系统的组成,指出大数据管理系统完成了从NoSQL到NewSQL的
本书系统地介绍了数据挖掘算法、原理及基于Python的实现方法,将算法原理与案例相结合,帮助读者建立数据挖掘领域的理论基础,提升基本的实践技能。本书共15章,主要包括数据挖掘概述、Python环境的搭建、数据预处理、数据集划分与交叉验证评分、回归、分类、集成学习、参数调优、降维、特征选择与特征联合、流水线、聚类、关联规
本书是面向大数据人才培养的高等学校数据科学与大数据技术专业系列教材中的一本,通过把数据思维融入全书各章,并通过Python实现相关案例,使抽象的数据思维具体化,从而加深读者对数据的感性认识,提高读者对数据思维的理解能力。本书首先介绍了大数据相关的概念,然后根据数据处理流程的逻辑顺序,对大数据平台和大数据开发进行了深入介
本书以项目实战为核心载体,采用任务驱动教学模式,系统且深入地解析Hadoop生态圈中主流的大数据开发技术。全书精心编排7个项目,从Hadoop的基础理论入门,逐步深入到Hadoop集群环境配置、Hadoop分布式文件系统、MapReduce分布式计算框架,再到MapReduce离线数据处理、基于Hive的离线数据分析,
随着数据量的爆炸式增长,大数据存储技术在数据科学、人工智能、云计算等领域的重要性日益凸显。大数据不仅为个人生活、企业经营,以及国家与社会的发展带来了机遇,也带来了挑战。本书是一本大数据入门图书,主要介绍了Hive、HBase、Sqoop等内容。本书采用理论与实践相结合的讲解方式,旨在帮助读者摆脱枯燥的理论学习,注重实际
本书前八章主要介绍人工智能及大数据分析处理相关内容,包括人工智能、深度学习、生成模型、预测、因果推断、系统辨识、大规模预训练模型和强化学习;后四章主要介绍协同优化博弈相关理论方法,具体包括协同优化、大规模整数规划、多目标优化和多智能体博弈。