您的位置:首页 > 百科大全 |

相关分析

研究随机变量之间的“相关关系”的一种统计方法。相关关系是一种非确定性的关系,例如,以xY分别记一个人的身高和体重,或分别记每亩施肥量与每亩小麦产量,则xY显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。当两变量xY有相关关系时,虽然知道了x之值x不足以决定Y之值,但可以决定Y的条件分布(见条件期望)Yx=x。反之,也可由Y之值y决定x的条件分布xY=y。这种依赖关系正是相关关系的实质所在。

相关分析与回归分析在实际应用中有密切关系。然而在回归分析中,所关心的是一个随机变量Y 对另一个(或一组)随机变量x 的依赖关系的函数形式。用预测的语言说,x是预测因子,Y是预测对象,故xY的地位不是平等的。而在相关分析中,所讨论的变量的地位一样,分析侧重于随机变量之间的种种相关特征。例如,以xY分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何,而不在于由x去预测Y

相关系数

完整描述相关关系的是条件分布Yx=xxY=y,但在使用上不方便。实用中常用相关系数(见概率分布)ρXY来描述xY之间的相关关系,其定义是ρXY=cov(xY)/(varx·varY)1/2。当ρXY>0(<0)时,称xY有正(负)相关。ρXY有以下性质。

(1)|ρXY|≤1。

(2)当xY有严格线性关系αx+bY=с时,ρXY=1或-1,视αb<0或αb>0而定。

(3)若xY相互独立,则ρXY=0;但当ρXY=0时,xY不一定相互独立。只有当(xY)服从二维正态分布时,才可由ρXY=0推出xY独立。当ρXY=0时,称xY不相关。相关系数只是xY之间线性关系密切程度的指标,因此常称ρXY为线性相关系数,而称基于它所作的相关分析为线性相关分析。

相关分析的主要任务是由 xY的一组观测值 (xi,Yi),i=1,2,…,n,估计ρXY及检验有关ρXY的假设(见假设检验),特别是H0:ρXY=0。在统计上,称

为样本相关系数,并用以估计ρXY。R.A.费希尔于1915年,在(xY)的总体分布为二维正态分布的情况下,求得了r的抽样分布,由此可以对ρXY=0的假设进行检验。费希尔的这项工作是相关分析的一项重大发展,可以说它标志了相关分析这一统计方法的建立。

复相关

上述相关系数只涉及两个变量xY。若有多个变量x1,x2,…,xk,则可考虑其中之一(如x1)与其余变量(x2,x3,…,xk)的相关,基本指标是x1对(x2,x3,…,xk)的复相关系数R。任取常数α2,α3,…,αk,计算x1与的相关系数,变动α2,α3,…,αk的数值使相关系数达到极大,这个极大值就是R。计算方法如下:记Λ为以为元素的矩阵的行列式,Λij为rij的余子式,则

偏相关

这也是相关分析中的一个重要概念。设xY和Z分别记同一个人每月的基本开支、文娱开支及其工资收入。经过分析,会发现xY之间有高度的正相关,究其原因,是由于xY同时受Z的影响;若把Z对二者的影响清除,则剩余部分的相关程度会有不同,甚至会变成负相关。后者就是xY相对于 Z的偏相关。它可用偏相关系数来度量,一般,设有变量x1,x2,…,xk,则在前述符号下,x1与x2相对于(x3,x4,…,xk)的偏相关系数是

有时,需要考虑一组变量与另一组变量的关系,为此引进了典型相关系数,相应的方法称为典型相关分析,这种相关性的研究属于多元统计分析的范围。

参考书目
    C.R.Rao,Linear Statistical Inference and Its Application, 2nd ed., John Wiley & Sons,New York,1973.