《深入浅出统计学》具有“深入浅出系列”的一贯特色,提供符合直觉的理解方式,让统计理论的学习既有趣又自然。从应对考试到解决实际问题,无论你是学生还是数据分析师,都能从中受益。本书涵盖的知识点包括:信息可视化、概率计算、几何分布、二项分布及泊松分布、正态分布、统计抽样、置信区间的构建、假设检验、卡方分布、相关与回归等等,完整涵盖AP考试范围。本书运用充满互动性的真实世界情节,教给你有关这门学科的所有基础,为这个枯燥的领域带来鲜活的乐趣,不仅让你充分掌握统计学的要义,更会告诉你如何将统计理论应用到日常生活中。
道恩?格里菲思(Dawn Griffiths)曾获得数学专业的一级荣誉学位,后又转向从事软件开发事业,目前将IT咨询、写作及数学集于一身。道恩曾拒绝了一份研究极为罕见的微积分方程的博士奖学金,在她不从事深入浅出系列图书的写作的时候,她的兴趣在打太极拳、织梭结花边和烹饪美食上。
道恩?格里菲思(Dawn Griffiths)曾获得数学专业的一级荣誉学位,后又转向从事软件开发事业,目前将IT咨询、写作及数学集于一身。道恩曾拒绝了一份研究极为罕见的微积分方程的博士奖学金,在她不从事深入浅出系列图书的写作的时候,她的兴趣在打太极拳、织梭结花边和烹饪美食上。
序言
1 信息图形化:第一印象
2 集中趋势的量度:中庸之道
3 分散性与变异性的量度:强大的“距”
4 概率计算:把握机会
5 离散概率分布的运用:善用期望
6 排列与组合:排序、排位、排
7 几何分布、二项分布及泊松分布:坚持离散
8 正态分布的运用:保持正态
9 再谈正态分布的运用:超越正态
10 统计抽样的运用:抽取样本
11 总体和样本的估计:进行预测
12 置信区间的构建:自信地猜测
13 假设检验的运用:研究证据
14 χ2分布:继续探讨……
15 相关与回归:我的线条如何?
附录i 尾声:正文未及的十大拓展
附录ii 统计表:快来查表
细分目录及各章引子
序言
大脑对待统计学的态度。一边是你努力想学会一些知识,一边是你的大脑忙着开小差。你的大脑在想:“最好把位置留给更重要的事,像该离哪些野生动物远点啊,像光着身子滑雪是不是个坏点子啊。”既然如此,你该如何引诱你的大脑意识到,懂得统计学是你安身立命的根本?
谁适合阅读本书? xxx
我们了解你在想什么 xxxi
元认知 xxxiii
征服大脑 xxxv
本书自述 xxxvi
技术顾问组 xxxviii
致谢 xxxix
1
信息图形化
第一印象
在为手头数据无法给出事情真相而发愁吗?统计能化繁为简,帮助你让一堆堆令人困惑的数据发挥作用。当你发现数据的真相后,接下来就需要借助可视化的方法表现出来,使之公之于众。为了找到最合适的图表完成这个过程,请你整理衣衫,带上最好的计算尺,和我们一起赶往“统计邦”吧。
统计量无处不在 2
为何学习统计学? 3
从两张图说起 4
呆板的饼图 8
条形图更具精确性 10
垂直条形图 10
水平条形图 11
标度的影响力 12
使用频数标度 13
处理多批数据 14
类别与数字 18
处理分组数据 19
绘制直方图起步:求出长方形宽度 20
第1步:求长方形宽度 26
第2步:求长方形高度 27
第3步:画出直方图 28
认识累积频数 34
绘制累积频数图 35
选择正确的图形 39
2
集中趋势的量度
中庸之道
有时候,把握问题核心才是当务之急。从一大堆数字中看出模式和趋势可能颇为不易,而求出平均数往往是把握全局的第一步。有了平均数就能迅速找出数据中最具代表性的数值,得出重要结论。在本章中,我们将介绍几种方法,帮助你计算最重要的统计量—均值、中位数、众数。你将开始学习如何有效地汇总数据,尽可能得出简练、有用的结果。
欢迎来到健身俱乐部 46
均值:平均数的一般量度 47
均值数学 48
处理未知条件 49
再说均值 50
再说健身俱乐部 53
人人都在练功夫 54
我们的数据中存在异常值 57
真凶是异常值 58
饮水机边的对话 60
寻找中位数 61
求中位数三步法: 62
生意日益兴隆 65
小鸭呱呱游泳班 66
均值和中位数出了什么问题? 69
我们该怎么处理这样的数据呢? 69
均值访谈 71
认识众数 73
求众数三步法 74
3
分散性与变异性的量度
强大的“距”
世事可靠不可靠,我们该问谁?平均数在寻找数据集典型值方面十分了得,但平均数并不能说明一切。平均数能让你知道数据中心所在,但若要给数据下结论,仅有均值、中位数和众数往往无法提供充足信息。在本章中,我们将开始分析各种距和差,让你的数据分析技术进入新境界。
招聘:队员一名 84
我们需要比较球员得分 85
使用全距区分数据集 86
异常值带来的问题 89
我们需要摆脱异常值 91
四分位数出手相救 92
四分位距剔除异常值 93
剖析四分位数 94
我们并不局限于使用四分位数 98
什么是百分位数? 99
用箱线图绘制各种“距” 100
变异性比分散性更具体 104
计算平均距离 105
我们可以用方差计算变异性…… 106
但标准差才是更直观的量度方法 107
标准差访谈 108
方差速算法 113
碰上需要比较基准的情况该怎么办? 118
使用标准分比较不同数据集中的数值 119
标准分释义 120
统计邦全明星篮球队赢了联赛! 125
4
概率计算
把握机会
人生无常瞬息之间的变化有时难以一一料定。但有些事情会比其他事情更有可能发生,这就为概率理论提供了大显身手的舞台。通过概率能评估出现各种结果的可能性,让你预测未来。知悉可能出现的结果则可帮助你作出有根据的决策。本章将让你了解更多概率知识,学会如何掌控未来!
肥蛋大满贯 128
转起来吧,轮盘! 129
几率有多大? 132
求解轮盘概率 135
维恩图:概率的图形表示 136
你还可以将几个概率相加 142
互斥事件与相交事件 147
交集带来的问题 148
更多表示法 149
又一次倒霉的转动…… 155
设定条件 156
求解条件概率 157
利用概率树还能计算条件概率 159
概率树使用诀窍 161
第1步:求P(黑∩偶) 167
第2步:求P(偶) 169
第3步:求P(黑|偶) 170
利用全概率公式求解P(B) 172
认识贝叶斯定理 173
如果几个事件互有影响,则为相关事件 181
如果几个事件互不影响,则为独立事件 182
再谈独立事件概率计算 183
5
离散概率分布的运用
善用期望
意外从天而降,未来如何演变?前文讲到如何通过概率得知发生某些事件的可能性的大小。可惜概率并非万能,它无法指出所发生的这些事情的整体影响,也无法指出这种整体影响对你的具体影响。不错,你有时会在轮盘赌中大赚特赚,但你赚到的钱真的填得平那些赔掉的钱吗?在本章中,我们将讲述如何利用概率预测长期结果,以及如何量度这些预测结果的确定性。
重回肥蛋赌场 198
我们可以写出老虎机概率分布 201
期望指示预测结果…… 204
方差指示结果的分散性 205
方差和概率分布 206
让我们算算老虎机的方差 207
肥蛋改了价码 212
E(X)与E(Y)之间存在线性关系 217
老虎机变换 218
线性变换的通用公式 219
每一次拉杆为一个独立观测值 222
观测值速算法 223
新老虎机在等你 229
E(X) + E(Y)= E(X + Y) 230
E(X) – E(Y)= E(X – Y) 231
线性变换也可以做加减运算 232
发了! 238
6
排列与组合
排序、排位、排
顺序有时很重要 一 清点某些事物的所有可能排序方法耗时颇巨,可这却是计算某些概率必不可少的过程 一 麻烦就在这里。在本章中,我们将介绍推导出这类信息的简便方法,为你免除清点一切可能结果的烦恼。来吧,让我们看看如何计算概率。
统计邦德比杯马赛 242
三马赛正在进行 243
马儿们有几种穿越终点线的方式? 245
计算排位数目 246
圆形排位 247
花样赛开始了 251
按个体排名与按种类排名不是一回事 252
我们需要按种类排列动物 253
推导出用于重复排列的公式 254
二十马赛正在进行 257
前三甲归属方式有几种? 258
何为排列 259
假如马匹排名无关紧要 260
何为组合 261
组合访谈 262
比赛结束 268
7
几何分布、二项分布及泊松分布
坚持离散
计算概率分布颇为费时。前面讲到如何计算和利用概率分布,不过,如果方法更简单一些,计算速度更快一些,效果岂不更好?在本章中,我们将介绍一些特殊的概率分布,这些概率分布有着十分固定的模式。只要懂得这些模式并善加利用,就能以前所未有的速度计算概率、期望、方差。接着读吧,让我们一起来认识几何分布、二项分布及泊松分布。
我们需要求出查德的概率分布 273
这种概率分布有一种固定模式 274
概率分布可以用代数式表示 277
几何分布对不等式同样有用 279
几何分布的期望模式 280
期望是 1/p 281
求当前分布的方差 283
几何分布简明指南 284
转椅赢赢赢! 287
你已经掌握了几何分布 287
玩下去,还是转身走? 291
推广到求3个问题的概率 293
进一步推导概率算式 296
期望和方差如何计算? 298
二项分布的期望与方差 301
二项分布简明指南 302
泊松分布的期望和方差 308
概率分布是怎样的? 312
组合泊松变量 313
伪装下的泊松分布 316
泊松分布简明指南 319
8
正态分布的运用
保持正态
离散概率分布并非无所不能。到目前为止,我们接触到的都是可以指定确切数值的概率分布。然而并非所有数据集合都是如此,还有几类数据并不符合我们之前遇到的概率分布。我们将在这一章里讲解所谓的连续型概率分布,并介绍最重要的概率分布类型之一 — 正态分布。
离散数据可取确切值…… 326
但并非所有数值型数据都是离散的 327
推迟几分钟? 328
我们需要求连续数据的概率分布 329
概率密度函数可用于描述连续数据 330
概率 = 面积 331
欲算概率,先求f(x)…… 332
再求面积,可得概率 333
概率算好了 337
寻找灵魂伴侣 338
男伴模型 339
正态分布是连续数据的“理想”模型 340
如何求正态概率? 341
正态概率计算三步法 342
第1步:确定分布 343
第2步:标准化为N(0, 1) 344
欲完成标准化,先移动均值…… 345
然后收窄 345
现在,为要计算其概率的特定数值求出Z 346
第3步:用方便易用的概率表查找概率 349
9
再谈正态分布的运用
超越正态
但愿所有的概率分布都是正态分布。有了正态分布,日子好过多了—既能一口气查出整个范围的概率,又能留下点时间玩游戏,谁还会花时间一个一个地计算概率呢?在本章中,你将学习如何闪电般解决更复杂的问题,还将懂得如何将正态分布的便利运用到其他概率分布上。
双双登上爱情过山车 363
正态新娘 + 正态新郎 364
终究还是体重问题 365
综合体重符合哪种分布? 367
求解概率 370
更多人想坐爱情过山车 375
线性变换描述了数据的基本变化…… 376
而独立观察结果描述的是你有多少数值 377
独立观察结果的期望和方差 378
接着玩,还是转身走? 383
正态分布出手相救 386
何时用正态分布近似代替二项分布 389
再谈正态近似 394
二项分布是离散分布,正态分布则是连续分布 395
在计算近似值之前先进行连续性修正 396
组合访谈 404
大家坐上爱情过山车 405
何时用正态分布近似代替泊松分布 407
婚礼成功! 413
10
统计抽样的运用
抽取样本
统计需要处理数据,数据从何而来?有时候数据很容易收集 — 例如参加一家健身俱乐部的人员的年龄,或一家游戏公司的销售数据;但有时候不太容易,这时候该怎么办? — 当事件数量十分庞大时,很难决定该从何处着手收集数据。在本章中,我们将看看如何在实际工作中成功收集数据 — 有效地、正确地、省时省钱地收集数据。欢迎来到抽样天地。
曼帝糖果公司口味检验 416
糖球吃光了 417
对糖球样本而非糖球总体进行检验 418
抽样方法 419
当抽样有误时 420
如何设计样本 422
确定抽样空间 423
样本有时会发生偏倚 424
偏倚的来源 425
如何选择样本 430
简单随机抽样 430
如何选取简单随机样本 431
其他类型的抽样 432
我们可以用分层抽样…… 432
或可用整群抽样…… 433
或甚至可用系统抽样 433
曼帝糖果公司有了样本 439
11
总体和样本的估计
进行预测
得样本而知总体,不亦乐乎?若想成为样本专家,首先要懂得如何最有效地利用到手的样本—利用样本准确地预测总体,并以一定方式说明预测结果的可靠程度。在本章中,我们将讲解如何通过样本了解总体,以及如何通过总体了解样本。
糖球口味到底能持续多久? 442
让我们首先估计总体均值 443
点估计量可以近似总体参数 444
让我们估计总体方差 448
我们需要一个有别于样本方差的点估计量 449
哪个公式用在哪里? 451
这是一个比例问题 454
这和抽样有什么关系? 459
比例的抽样分布 460
Ps的期望是多少? 462
Ps的方差是多少? 463
求解Ps的分布 464
Ps符合正态分布 465
我们需要求样本均值的概率 471
均值的抽样分布 472
求X的期望 474
X的方差是多少? 476
X如何分布? 480
当n很大时,X仍然可以用正态分布近似 481
使用中心极限定理 482
12
置信区间的构建
自信地猜测
有时候样本无法给出足够正确的结果。前面讲到如何用点估计量估计总体均值、方差或一定比例的精确值。问题在于,你怎么能肯定自己的估计完全正确?毕竟,你仅仅依靠一个样本对总体作出假设,如果这个样本出问题怎么办?本章将介绍另一种估计总体统计量的方法 — 一种考虑了不确定性的方法。拿出你的概率表,我们将向你讲解置信区间的来龙去脉。
曼帝糖果出事了 488
精度引起的问题 489
认识置信区间 490
求解置信区间四步骤 491
第1步:选择总体统计量 492
第2步:求出所选统计量的抽样分布 492
第3步:决定置信水平 494
第4步:求出置信上下限 496
先求Z 497
用m改写不等式 498
最后求X的数值 501
你求出了置信区间 502
步骤总结 503
置信区间简便算法 504
第1步:选择总体统计量 508
第2步:求X的概率分布 509
第3步:决定置信水平 512
第4步:求出置信上下限 513
t分布与正态分布比较 515
13
假设检验的运用
研究证据
他人的言论未必句句真实可信。问题是如何判断他人的言论何时真,何时假?假设检验为你提供了一种方法—利用样本检验各种统计断言是否可能属实。通过假设检验可以权衡证据,检验极限结果—是纯属巧合,还是存在其他内在根据?让我们一起阅读本章,看看如何利用假设检验证实或打消你内心深处的疑虑。
统计邦新上市的神奇药品 522
纵观全局 526
假设检验六步骤 527
第1步:确定假设 528
第2步:选择检验统计量 531
第3步:确定拒绝域 532
第4步:求出p值 535
第5步:样本结果位于拒绝域中吗? 537
第6步:作出决策 537
如果样本增大会怎么样? 540
让我们再进行一次假设检验 543
第1步:确定假设 543
第2步:选择检验统计量 544
在我们的检验统计中用正态分布近似二项分布 547
第3步:求出拒绝域 548
让我们从第一类错误讲起 556
再谈第二类错误 557
发现鼾克检验的错误 558
我们需要求数值范围 559
求P(第二类错误) 560
认识功效 561
14
x2分布
继续探讨……
有时候事实与期望并不相符。当以一种特定的概率分布为某种情况建模时,对于事物的长期可能结果,你有十分清晰的想法。可如果期望与事实存在差别呢?你该如何判断?—这些偏差是正常波动,还是说明概率模型存在问题?本章将讲解如何利用χ2分布分析结果,排除可疑结果。
肥蛋赌场可能有麻烦 568
让我们从老虎机开始 569
用2检验评估差异 571
检验统计量代表什么? 572
x2分布的两个主要用途 573
表示自由度 574
显著性是多少? 575
x 2假设检验 576
你解开了老虎机之谜 579
肥蛋遇到了新问题 585
x 2分布可以检验独立性 586
可用概率求出期望频数 587
频数是多少? 588
我们还需要计算自由度 591
自由度计算方法归纳 596
得出算式…… 597
你救了肥蛋赌场 599
15
相关与回归
我的线条如何?
你是否曾经为某两件事的相互关系困惑不已?前面讲过的统计量只描述一个变量—如个人身高、篮球队员得分或是糖球口味持续时间,但是,另外还有一些统计量可以说明变量之间的关系。了解事物的相互关系可以丰富你的信息,让你了解真相,使你立于不败之地。来吧,让我们为你介绍发现事物关系的秘诀: 相关与回归。
让我们分析天晴时数和听众人数 607
数据类型探讨 608
二变量数据可视化 609
散点图为你指出模式 612
相关关系与因果关系 614
用最佳拟合线预测数值 618
最佳猜测仍是猜测 619
我们需要将误差最小化 620
认识误差平方和 621
求最佳拟合线公式 622
求最佳拟合线斜率 623
求最佳拟合线的斜率,第二部分 624
b求出来了,a呢? 625
你已经找出了关系 629
让我们查看一些相关关系 630
用相关系数量度直线与数据的拟合度 631
相关系数r有专用计算公式 632
求音乐会数据的r 633
求音乐会数据的r(续) 634
i
附录I:尾声
正文未及的十大拓展
正文既已,余兴未尽。我们觉得还有一些内容是你需要知道的,对这些内容只字不提恐有不妥,不过,其实也只需要简单地提一提—我们诚挚地希望为你呈上一本厚薄适度的书,免得你为了捧起这本书学习还得先去健身中心练练臂力。因此,请先通读一遍这里的知识点,再合上本书。
#1. 数据的其他表现形式 644
#2. 分布剖析 645
#3. 实验 646
#4. 最小二乘回归法的其他公式 648
#5. 决定系数 649
#6. 非线性关系 650
#7. 回归线斜率的置信区间 651
#8. 抽样分布 – 两个均值之间的差异 652
#9. 抽样分布 – 两个比例之间的差异 653
#10. 连续概率分布的E(X)和Var(X) 654
ii
附录II:统计表
快来查表
缺少值得信赖的概率表该怎么办?仅仅了解概率分布是不够的,有时还需要在标准概率表中查找概率。这份附录给出了正态分布、t分布和Χ2分布的概率表,可在其中尽情查找各种概率。
标准正态分布表 658
t分布临界值 660
2 临界值 661