非参数统计

[拼音]：feicanshu tongji

[外文]：nonparametric statistics

数理统计学的一个分支。如果在一个统计问题中，其总体分布不能用有限个实参数来刻画，只能对它作一些诸如分布连续、有密度、具有某阶矩等一般性的假定，则称之为非参数统计问题。例如，检验“两个总体有相同分布”这个假设，若假定两总体的分布分别为正态分布N(μ1，σ2)和N(μ2，σ2)，则问题只涉及三个实参数μ1，μ2，σ2，这是参数统计问题。若只假定两总体的分布为连续，此外一无所知，问题涉及的分布不能用有限个实参数刻画，则这是非参数统计问题。又如，估计总体分布的期望μ，若假定总体分布为正态 N(μ，σ2)，则问题是参数性的；若只假定总体分布的期望值存在，则问题是非参数性的。不过参数统计与非参数统计之间并没有泾渭分明的界线。有的统计问题，从不同的角度，可以理解为参数性的，也可以理解为非参数性的。例如线性回归（见回归分析）问题，若关心的是估计回归系数，它只是有限个实参数，因而可以看成是参数性的。但是，如果对随机误差的分布类型没有作任何假定，则从问题的总体分布这个角度看，也可以看成是非参数性的。

重要的非参数统计方法

秩方法是基于秩统计量(见统计量)的一类重要的非参数统计方法。设有样本X1，X2，…，Xn，把它们由小到大排列，若Xi在这个次序中占第Ri个位置(最小的占第1个位置)，则称Xi的秩为Ri(i=1，2，…，n)。1945年F.威尔科克森提出的"两样本秩和检验"是一个有代表性的例子。设X1，X2，…，Xm和Y1，Y2，…，Yn分别是从分布为 F(x)和 F(x-θ)的总体中抽出的样本，F连续但未知，θ也未知，检验假设 H:θ=0，备择假设为θ>0(见假设检验)。记Yi在混合样本(X1，X2，…，Xm，Y1，Y2，…，Yn)中的秩为Ri，且为诸秩的和，当W >C时，否定假设H，这里C决定于检验的水平。这是一个性能良好的检验。秩方法的一个早期结果是C.斯皮尔曼于1904年提出的秩相关系数。设(X1，Y1)，(X2，Y2)，…，(Xn，Yn)是从二维总体(X，Y)中抽出的样本，Ri为Xi在(X1，X2，…，Xn)中的秩，Qi为Yi在(Y1，Y2，…，Yn)中的秩，定义秩相关系数为(Ri，Qi)(i=1，2，…n)的通常的相关系数（见相关分析）。它可以作为X、Y之间相关程度的度量，也可用于检验关于X、Y独立性的假设。

次序统计量和U 统计量在非参数统计中也有重要应用。前者可用于估计总体分布的分位数（见概率分布）、检验两总体有相同的分布及构造连续总体分布的容忍限和容忍区间（见区间估计）等。后者主要用于构造总体分布的数字特征的一致最小方差无偏估计(见点估计)及基于这种估计的假设检验。

苏联数学家Α.Η.柯尔莫哥洛夫和Β.И.斯米尔诺夫在20世纪30年代的工作开辟了非参数统计的一个方面，他们的方法基于样本X1，X2，…，Xn的经验分布函数Fn(x)(见样本)。柯尔莫哥洛夫考察 Fn(x)与理论分布F(x)的最大偏差墹n，当墹n超过一定限度时，否定这个理论分布F(x)。这就是柯尔莫哥洛夫检验。斯米尔诺夫则考察由两个分布为F(x)和g(x)的总体中抽出的样本X1，X2，…，Xm和Y1，Y2，…，Yn计算其经验分布Fm(x)和gn(x)的最大偏差墹mn，当墹mn超过一定限度时，否定“F与g相等”这个假设。这就是斯米尔诺夫检验。

在非参数性估计方面，有关于估计分布的对称中心、概率密度函数和回归函数等比较重要的成果。

非参数统计的特点

非参数统计问题中对总体分布的假定要求的条件很宽，因而针对这种问题而构造的非参数统计方法，不致因为对总体分布的假定不当而导致重大错误，所以它往往有较好的稳健性(见稳健统计)，这是一个重要特点。但因为非参数统计方法需要照顾范围很广的分布，在某些情况下会导致其效率的降低。不过，近代理论证明了：一些重要的非参数统计方法，当与相应的参数方法比较时，即使在最有利于后者的情况下，效率上的损失也很小。

由于非参数统计中对分布假定要求的条件宽，因而大样本理论（见大样本统计）占据了主导地位。第二次世界大战前，非参数统计的大样本理论已有了一些结果，从20世纪50年代直到现代，更有了显著的进展，尤其是关于秩统计量与U 统计量的大样本理论，及基于这种理论的大样本非参数方法，研究成果很多。

参考书目

Order Statistics

Nonparametrics:Statistical Method based on rank