本书围绕思维、信息、数据、算法、技术、安全、未来等方面讨论人工智能技术背后的实现原理和本质。涵盖以下要点。1、人类解决人工智能技术问题的根本原因。2、重点围绕香农提出的信息论,并在此基础上阐述关于信息的度量、加密、传输等方面的内容。3、从正反两个角度来审视大数据给我们生活带来的影响。4、围绕机器学习算法、人工神经网络算法等内容展开讨论。5、围绕计算机发展、运算、存储等技术实现,并说明分布式计算的原理、实现过程、要解决的一致性难题等。6、围绕大众比较关注的大数据安全等话题,比如大数据杀熟、智能攻防等进行讲解。7、开放性的探讨人类未来的命运等话题。
机器会有智能吗?
什么是人工智能?每个人心中都有自己的答案。
它或许是数学家眼中的机器学习算法,或许是程序员眼中的Java或Python程序代码,或许是能打败围棋世界冠军的AlphaGo,或许是能和人类对话的智能助手Siri、小度与小爱。
它或许是能跑、能跳还会翻跟斗的波士顿机器狗,或许是拥有公民身份的机器人索菲亚,或许是《变形金刚》里的大黄蜂和擎天柱、《终结者》里的杀手机器人T-800、《黑客帝国》里的人类“母体”Matrix。
当我们谈及人工智能时,总是联想到它的各种形态,还有其丰富的应用场景。人工智能给人以希望和幻想,它有着数学的底蕴、文学的色彩、哲学的魅力,它是信息科技的产物,也凝聚着人类的智慧。
那么,一台机器想要拥有“智能”,会面临哪些挑战呢?
首先,机器的智能表现在能够处理那些不太确定的事情上。想象一下,如果让计算机去做数学题,无论它的答案有多准确,我们都不会感到惊讶,因为答案是确定的,计算机只是一个算得很快的计算器。但如果计算机能与人类对话,很自然地回答人类提出的各种带有“不确定性”的问题,它似乎就有点“智能”了。
其次,机器的智能表现在能很好地处理模糊性的知识上。人和计算机处理问题的思维逻辑是不同的,人可以接受很多模糊的定义,计算机却不行。比如要给用户推荐商品,人可以基于主观感受和过往经验直接做出判断,但计算机必须把什么是“用户的喜好”用客观的数学公式定义清楚。还有,人类语言在表达时存在很大的模糊性,比如:一堆沙子至少有几粒?人长多高才不算矮?什么是好看的?悲伤是什么感觉?这些模糊问题的答案,我们很难用语言表达清楚。如果计算机可以很好地处理它们,就又有了一点“智能”了。
后,机器的智能表现在能处理那些连人类自己都无法梳理清楚的复杂规则上。试想一下,假设你不清楚计算机的运作原理,但通过计算机可以上网搜索资讯,还能通过它和远方的朋友聊天,你会想:“这是怎么实现的?”是的,电子计算机发明至今不到100年,但它的内部构造已经变得相当复杂,足以让人感到神奇。同样,当计算机能成功识别出图像中的一只猫时,你难道不想问一句“这是怎么实现的”?毕竟对我们人类来说,很难把识别猫的规则讲清楚,因为规则太复杂。如果计算机有办法很好地处理图像,它就有了自行理解这些复杂规则的“智能”。
总而言之,机器的智能表现在能处理那些不确定、模糊、复杂的问题上。那么,怎样才能判断机器已经拥有了“智能”呢?答案是,取决于人的主观判断。就是说,机器只要表现得像人一样、看上去有“智能”就行,至于它到底有没有“智能”并不重要。从这点来看,我们人类似乎已经找到了解决方案——基于信息技术、数学算法与大数据。这个方案或许是临时的,但它具有创新性。
当然,任何新技术的发展,不可避免地会影响到现有的技术环境。随着机器开始拥有“智能”,人工智能相关的安全与哲学话题也随之出现。比如:人工智能究竟有没有思想?机器会替代人类吗?人类能否把重要决策交给人工智能?这些问题似乎都在等待着答案。
新闻媒体在报道人工智能时,有时会把一些很小的研究成果描述为足以改变人类文明的伟大成就。这种夸张的报道,虽然十分吸引眼球,但也在一定程度上有意或无意地误导了大众。有些人误以为今天的人工智能已经变得无所不能,但是,如果你真正了解人工智能背后的技术原理和运作逻辑,你就会更加客观地看待人工智能。比起“科幻”,人工智能更是“科学”。
本书特色
本书希望解答一些有关人工智能的通识问题。人工智能本身是一门非常专业、复杂、抽象、跨领域的学科,学习相关专业知识需要投入大量时间和精力。对于一般人来说,重要的不是去搞懂那些专业知识,而是理解人工智能的运作逻辑,这样对每个人的生活和工作更有借鉴意义。
本书尝试用通俗易懂的语言,勾勒人工智能的全貌。换句话说,就是讲明白什么是人工智能。书中会阐述人工智能背后的技术和原理,讨论人工智能在发展过程中遇到过哪些困难,以及它们是如何解决的。本书不是关于人工智能的畅想和漫谈,也不是一本专业的教科书。秉承大道至简的原则,书中不会涉及大量数学公式和程序代码,而是把重点放在讨论人工智能的核心技术和原理上。
如何阅读本书
本书共9章,逻辑上分成三部分,总体结构如下图所示。
人工智能的基础理论部分共3章。
第1章讨论统计学和概率论。人工智能之所以被认为具有“智能”,是因为它从一开始就在想办法处理具有不确定性的问题。随着概率论和统计学等相关理论的发展,科学家们找到了应对这个不确定性世界的有效方法和解题思路。
第2章介绍数据统计的基础知识。我们知道,人工智能是基于数据的,如果数据出了问题,人工智能给出的判断也可能出错。因此,必须更加谨慎地对待基于客观数据的主观结论,避开数据“陷阱”。
第3章讲解信息论。人工智能是一种处理信息的模型。更关键的是,它用信息来消除不确定性。自20世纪以来,以香农为代表的科学家把有关信息的理论发展成一门学科,奠定了信息技术发展的理论基
前言
第1章 世界充满不确定性 / 1
1.1 解题重要的是思路 / 2
1.1.1 加百子的答案 / 2
1.1.2 人工智能的破题思路 / 2
1.1.3 统计思维的诞生 / 3
1.2 随机世界 / 6
1.2.1 猜测上帝的游戏 / 6
1.2.2 科学研究与模型 / 7
1.2.3 随机性与随机过程 / 8
1.2.4 正态分布是什么 / 9
1.2.5 随机不是均匀 / 10
1.3 概率的威力 / 11
1.3.1 试验能得出什么规律 / 12
1.3.2 如何合理分配赌金 / 12
1.3.3 概率与异常值 / 13
1.3.4 用概率击败庄家 / 14
1.4 直觉和错觉 / 15
1.4.1 猜拳是不是碰运气 / 15
1.4.2 同一天生日的概率是多少 / 16
1.4.3 蒙提霍尔的三门问题 / 17
1.5 生活中的大数定律 / 19
1.5.1 大数定律的概念和意义 / 19
1.5.2 蒙特卡洛方法 / 20
1.6 如何验证假设 / 20
1.6.1 女士品茶 / 21
1.6.2 停时理论 / 24
1.7 经验和实践如何共存 / 25
1.7.1 什么是贝叶斯定理 / 26
1.7.2 朴素贝叶斯有多“朴素” / 29
1.7.3 每个人都懂贝叶斯 / 31
1.8 结语 / 32
第2章 数据代表真相吗 / 34
2.1 小心数据的陷阱 / 34
2.2 数据收集的偏差 / 35
2.2.1 幸存者偏差 / 35
2.2.2 选择性偏差 / 36
2.3 数据处理的悖论 / 38
2.3.1 被平均的工资 / 38
2.3.2 辛普森悖论 / 40
2.4 数据呈现的误导 / 42
2.4.1 未披露的数据 / 42
2.4.2 会欺骗的视觉设计 / 43
2.5 如何正确解读数据 / 47
2.5.1 相关性不等于因果性 / 47
2.5.2 被选数据的骗局 / 50
2.5.3 数据表达的局限 / 51
2.5.4 精准预测的挑战 / 52
2.6 结语 / 54
第3章 如何获得有用信息 / 55
3.1 数据、信息、知识 / 55
3.1.1 数据是一组有意义的符号 / 56
3.1.2 信息是用来消除不确定性的 / 56
3.1.3 知识是对信息的总结和提炼 / 57
3.2 用信息丈量世界 / 60
3.2.1 香农与信息论 / 60
3.2.2 一条信息的价值 / 62
3.2.3 重复的信息没有价值 / 64
3.2.4 信息的熵 / 65
3.3 信息是如何交换的 / 66
3.3.1 互联网与信息交换 / 67
3.3.2 哈夫曼和有效编码 / 68
3.3.3 信息不对称与囚徒困境 / 71
3.4 信息的加密与解密 / 74
3.4.1 语言是一套密码系统 / 74
3.4.2 墙边盛开的花朵 / 75
3.4.3 可以被公开的密钥 / 76
3.5 信息里的噪声 / 79
3.5.1 信息越多结果就越准确吗 / 79
3.5.2 人工智能如何处理噪声 / 80
3.5.3 模型的泛化能力 / 82
3.5.4 欠拟合和过拟合 / 82
3.6 结语 / 84
第4章 大数据处理与挖掘 / 85
4.1 大数据概述 / 86
4.1.1 数据是描绘世界的新方式 / 86
4.1.2 大数据到底有多大 / 87
4.2 数据处理的流程和方法 / 88
4.2.1 数据收集 / 89
4.2.2 数据加工 / 90
4.2.3 数据分析 / 94
4.2.4 数据可视化 / 100
4.3 大数据改变了什么 / 103
4.3.1 经验与数据 / 103
4.3.2 时间与空间 / 105
4.3.3 记忆与理解 / 106
4.4 结语 / 107
第5章 机器是如何学习的 / 108
5.1 机器学习是什么 / 108
5.1.1 归纳与推演 / 109
5.1.2 定规则和学规则 / 110
5.1.3 算法的含义 / 112
5.2 机器学习算法 / 113
5.2.1 常见的学习方法 / 114
5.2.2 回归 / 116
5.2.3 分类 / 118
5.2.4 聚类 / 126
5.2.5 降维 / 130
5.2.6 时间序列 / 132
5.3 没有完美的算法 / 134
5.4 结语 / 135
第6章 模拟大脑的神经网络 / 137
6.1 不断演进的人工智能 / 138
6.1.1 从浅层学习到深度学习 / 139
6.1.2 萌芽、复苏、增长和爆发 / 141
6.2 机器会不会思考 / 144
6.3 深度学习算法 / 146
6.3.1 人工神经网络:模拟人脑的思考 / 146
6.3.2 卷积神经网络:让计算机“看”到世界 / 152
6.3.3 循环神经网络:如何模拟记忆功能 / 157
6.3.4 强化学习:黑森林蛋糕的秘密 / 161
6.4 场景是算法的综合应用 / 166
6.4.1 计算机如何下围棋 / 166
6.4.2 计算机如何打游戏 / 168
6.4.3 计算机如何与人对话 / 170
6.5 结语 / 177
第7章 海量运算背后的技术 / 178
7.1 不断提升的计算能力 / 178
7.1.1 计算的演进 / 179
7.1.2 今非昔比的算力 / 183
7.1.3 计算机芯片 / 184
7.2 如何完成协作计算 / 187
7.2.1 举足轻重的三篇论文 / 187
7.2.2 不可兼得的CAP定理 / 189
7.2.3 故障是不可避