《高等统计学》介绍高等统计学的基本概念、方法和理论,其内容包括基本概念、点估计、统计决策与Bayes统计、假设检验、区间估计和置信域。《高等统计学》着重阐述高等统计学的思想、概念和方法,尽量简化公式推导和理论证明。此外,每章列举一些典型例题,给出较详细的解题方法和技巧,并有选择地安排一些模拟计算和图示。
《高等统计学》可以作为本科高年级学生或硕士研究生的教材,也可以作为科技工作者自学或查阅资料的参考书。
更多科学出版社服务,请扫码获取。
《高等统计学》可以作为本科高年级学生或硕士研究生的教材,也可以作为科技工作者自学或查阅资料的参考书。
第1章基本概念
本章主要介绍统计学中的基本概念,主要内容包括统计模型与常用分布族、统计量及其分布、充分统计量、完备统计量、指数型分布族。这些内容将为后面各章的学习提供帮助。
1.1统计模型与常用分布族
统计学方法和理论的研究是基于某个统计模型展开的,而对统计模型的讨论涉及分布族。因此,统计模型与分布族在统计学中扮演着重要角色。本节首先引入统计模型的概念,然后介绍一些常用的分布族。
1.1.1统计模型
在开始学习统计学之前,首先要明白什么是统计学。《大英百科全书》的解释是:统计学(Statistics)是一门收集与分析数据,并且根据数据进行推断的艺术与科学。按照上述对统计学的解释,我们可以看出统计学有两个主要任务:一是收集数据;二是分析数据,**个任务的内容属于统计学中的两门课程抽样调查和试验设计;第二个任务需要利用各种统计方法来完成本书仅考虑第二个任务,即讨论如何对已有的数据进行统计分析的问题。由于数据来源于自然和社会的各个方面,应用是统计学的一个十分重要的特征,但实际应用更需要理论为基础。
因此,本书不但介绍统计学中的基本概念和方法,而且也涉及主要的统计理论。
在统计学中,数据是样本的观测值,数据分析的目的是利用样本来对事物的某些未知方面进行统计推断或预测。假定样本X的一切可能取值为X,那么通常称X为样本空间,称(X;B)为可测空间,其中B是X的某些子集构成的.域 .依X的分布而从X中随机抽出的一个元素就是样本对一维总体,容量为n的样本X记为(X1;¢¢¢;Xn).,其中 \."表示向量或矩阵的转置,此时样本空间X是n维欧氏空间Rn或Rn的某个Borel子集,而取X的一切Borel子集作为 B.这样的样本空间称为欧氏样本空间对于k维总体,也可以作类似理解。有了这个约定,我们就不必在每个场合下对样本空间进行说明了。
随机变量X有一定的概率分布F.大家知道,在概率论中F是给定的,概率和数字特征的计算是在F已知的情况下进行的对统计学中的问题,F总是未知的,或仅知道其形式而其中含有未知参数。因此,我们可以把这个意思说成:F属于某个分布族F.它在特定的统计问题中有具体的含义。当F是样本分布时,F称为样本分布族;而当F是总体分布时,F则称为总体分布族。二者统称为分布族,但其含义有些差别。例如,如果总体eX有分布eF,从eX中抽取独立同分布(iid)样本X1;¢¢¢;Xn,则X=(X1;¢¢¢;Xn).有分布F=eF£¢¢¢£eF,它完全由eF所决定。我们可以把样本X1;¢¢¢;Xn视为在完全同等的条件下对eX所作的n次独立观测值,此时通常把由eX的分布 eF所构成的集合称为总体分布族,它决定了样本X的分布族||样本分布族。因此在这个特例下,总体分布族与样本分布族有不同的含义。
样本空间X、.域B和样本分布族F构成了一个统计问题的三个基本要素。我们称三元组(X;B;F)为统计模型。如果分布族F仅依赖于某一个参数(或参数向量)μ,则称该模型为参数(统计)模型,并称F为参数分布族。如果F中的分布不能用有限个参数来刻画,则称该模型为非参数(统计)模型,并称F为非参数分布族。例如,设F1=fFμ: μ2£g,其中μ为参数,£为参数空间,那么(X;B;F1)为参数模型,其中F1为参数分布族。又如,设F2=fF:F 为实数集R上的对称分布g,那么(X;B;F2)为非参数模型,其中F2为非参数分布族。
在实践中,对具体问题可以借助于专业知识和经验积累来确定统计模型。人们通常希望从参数模型出发来研究统计学中的问题,因为参数模型含有较多的信息,由此出发可以获得精度较高的参数估计。但这样做要承担一定的风险,这是因为当参数模型不真时,统计推断结果可能会偏离实际,甚至与实际相背离。如果选用非参数模型,所冒风险就会很小,因为非参数模型适应面广,但它所含的信息较少,统计推断结果的精度一般不会很高。在这两类模型下所用的统计推断方法有很大差别,这就形成了统计学中的两类方法||参数统计方法和非参数统计方法。
在20世纪80年代,人们提出了另一类模型||半参数模型部分线性模型就是其中的一种,即有形式
E(YjX=x;U=u)=ˉ.x+g(u);(1.1.1)
其中ˉ=(ˉ1;¢¢¢;ˉp).为p维未知参数向量,g(u)为定义在某区间上的未知函数。模型(1.1.1)由两部分构成:**部分ˉ.x为x=(x1;¢¢¢;xp).的线性组合;第二部分g(u)为u的非线性函数。因此称它为部分线性模型。该模型不能作为参数模型,因为(X;U;Y)的分布族不能通过有限个参数来刻画。由于模型(1.1.1)的**部分是参数性的,而第二部分是非参数性的,因此它应归入半参数模型。按照这一思想,可以举出其他一些半参数模型的例子。例如,单指标模型、部分线性单指标模型、部分线性变系数模型、可加部分线性模型等。对半参数模型的讨论超出了本书的范围,这里不再赘述。
本书主要讨论参数模型及参数统计方法,但也涉及非参数统计方法。关于非参数模型及非参数统计方法的详细讨论,可以阅读相关的非参数统计书籍,例如,陈希孺和柴根象(1993),孙山泽(2000),王静龙和梁小筠(2006),李竹渝与鲁万波和龚金国(2007),薛留根(2013,2015)等。对于半参数模型的讨论,可参阅柴根象和洪圣岩 (1995)、薛留根(2012)等人的著作。
下面引入可控分布族和可控模型的概念。为此,我们从测度的**连续性谈起。
定义1.1.1设(X;B;F)为一统计模型。如果在可测空间(X;B)上存在这样一个.有限测度1,使得F中每一个概率分布F对1都是**连续的,即对任意F2F,都有F.1,则称F为可控分布族,称(X;B;F)为可控模型,并称1为控制测度,相应的Radon-Nikodym导数dF=d1称为密度函数,简称为密度。对控制测度1,如无特殊声明,均指非负测度。统计学中常用来作控制的有限测度有两种:计数测度和Lebesgue测度。下面举例加以说明。
例1.1.1(计数测度)设X=R;B是直线上一切Borel集组成的.域,在(X;B)上定义如下测度:
1(B)=B中非负整数的个数;8B2B:容易验证,测度1是.有限测度,并称为计数测度。它可以用来控制任一个定义在非负整数集合N(或其子集)上的概率分布族,其Radon-Nikodym导数就是通常的概率分布列。如对Poisson分布族来说,任一个不含非负整数的Borel集A的计数测度1(A)为零,而在这样的集合上Poisson概率P(A)必为零。
今后对离散型随机变量的分布所谈论的密度函数,就是指该分布对计数测度的Radon-Nikodym导数。下面给出 Lebesgue测度的定义。
例1.1.2(Lebesgue测度)设X=R;B是直线上的一切Borel集组成的。
域,在(X;B)上基于区间长度定义Lebesgue测度1(B)=B中不相交区间的长度之和或其极限;8B2B:容易验证, Lebesgue测度是有限测度,它可以控制任一个定义在实数集R上的连续分布F,其Radon-Nikodym导数就是通常的密度函数f(x)。
一般来说,对于一个参数模型(X;B;F),如果分布族F=fFμ;μ2£g是可控的,其控制测度为1,则相应的密度函数也依赖于参数μ,即
dFμ(x)d1=f(x;μ);μ2£:
此时,可控分布族也可以用密度函数f(x;μ)表示,即
(X;B;ff(x;μ):μ2£g):
存在既不被计数测度控制,又不被Lebesgue测度控制的分布族。一个特殊的例子是Marshall-Olkin的二元指数族。对该分布族的详细讨论可参阅茆诗松等(2006)的著作,这里不再赘述。
1.1.2常用分布族
在统计模型(X;B;F)中,样本空间X和.域B是不可缺少的,它指出了样本的取值范围以及应讨论哪一类事件是有意义的。但分布族F是统计模型的核心,它在统计推断中起着重要作用。在概率论与数理统计的教科书中已介绍过一些常用的分布族,其中包括:
(1)二项分布族fB(n;μ):0<μ<1g;
(2)Poisson分布族fP(.):.>0g;
(3)正态分布族fN(1;.2):(1;.2)2R£R+g,其中R+是正实数集;
(4)均匀分布族fU(a;b):.1这些分布族及其性质都是大家所熟悉的,这里不再一一赘述。此外,在统计学中还经常涉及另外的一些分布族,它们是:Gamma分布族、Beta分布族、t分布族、F分布族等。下面逐个介绍这些分布族。
(i)Gamma分布的密度曲线当固定尺度参数。改变.的值将导致Gamma分布的密度曲线形状的改变。图1.1.1给出了不同值下的Gamma分布的密度曲线。从图中可以得到如下结论:当.61时,f(x)是严减函数;当1<.62时,f(x) 先凸后凹;当.>2时,f(x)先其中自由度n可为任意正实数,但在实际问题中常用的自由度n为自然数,并编制了2 分布表。
(6)Beta分布族。Beta分布的密度函数为
记为Be(a;b),其中a和b是正的参数。Beta分布族记为fBe(a;b):a>0;b>0g。
对Beta分布族作如下解释。
(i)Beta分布的密度曲线。参数a和b的值的改变将导致Beta分布的密度曲线形状的改变。图1.1.2在a和b的不同值下给出了几种特殊的Beta分布的密度曲线。从图中可以得到如下结论:当a<1和b<1时,f(x)的曲线呈U型,在 (1.a)=(2.a.b)处达到*小值,特别地,对a=b=0:5,该分布为反正弦分布,对a=b=1,该分布就是区间(0;1)上的均匀分布,记为U(0;1);当a>1和b>1时,
f(x)的曲线呈单峰状,在(a.1)=(a+b.2)处达到**值;当a61和b>1时,
f(x)是严减函数;当a>1和b61时,f(x)是严增函数。