[拼音]:xiangguan fenxi
[外文]:correlation analysis
研究随机变量之间的“相关关系”的一种统计方法。相关关系是一种非确定性的关系,例如,以x和Y分别记一个人的身高和体重,或分别记每亩施肥量与每亩小麦产量,则x与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。当两变量x和Y有相关关系时,虽然知道了x之值x不足以决定Y之值,但可以决定Y的条件分布(见条件期望)Y│x=x。反之,也可由Y之值y决定x的条件分布x│Y=y。这种依赖关系正是相关关系的实质所在。
相关分析与回归分析在实际应用中有密切关系。然而在回归分析中,所关心的是一个随机变量Y 对另一个(或一组)随机变量x 的依赖关系的函数形式。用预测的语言说,x是预测因子,Y是预测对象,故x、Y的地位不是平等的。而在相关分析中,所讨论的变量的地位一样,分析侧重于随机变量之间的种种相关特征。例如,以x、Y分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何,而不在于由x去预测Y。
相关系数完整描述相关关系的是条件分布Y│x=x和x│Y=y,但在使用上不方便。实用中常用相关系数(见概率分布)ρXY来描述x、Y之间的相关关系,其定义是ρXY=cov(x,Y)/(varx·varY)1/2。当ρXY>0(<0)时,称x、Y有正(负)相关。ρXY有以下性质。
(1)|ρXY|≤1。
(2)当x、Y有严格线性关系αx+bY=с时,ρXY=1或-1,视αb<0或αb>0而定。
(3)若x、Y相互独立,则ρXY=0;但当ρXY=0时,x与Y不一定相互独立。只有当(x,Y)服从二维正态分布时,才可由ρXY=0推出x、Y独立。当ρXY=0时,称x、Y不相关。相关系数只是x、Y之间线性关系密切程度的指标,因此常称ρXY为线性相关系数,而称基于它所作的相关分析为线性相关分析。
相关分析的主要任务是由 x、Y的一组观测值 (xi,Yi),i=1,2,…,n,估计ρXY及检验有关ρXY的假设(见假设检验),特别是H0:ρXY=0。在统计上,称
为样本相关系数,并用以估计ρXY。R.A.费希尔于1915年,在(x,Y)的总体分布为二维正态分布的情况下,求得了r的抽样分布,由此可以对ρXY=0的假设进行检验。费希尔的这项工作是相关分析的一项重大发展,可以说它标志了相关分析这一统计方法的建立。
复相关上述相关系数只涉及两个变量x、Y。若有多个变量x1,x2,…,xk,则可考虑其中之一(如x1)与其余变量(x2,x3,…,xk)的相关,基本指标是x1对(x2,x3,…,xk)的复相关系数R。任取常数α2,α3,…,αk,计算x1与的相关系数,变动α2,α3,…,αk的数值使相关系数达到极大,这个极大值就是R。计算方法如下:记Λ为以为元素的矩阵的行列式,Λij为rij的余子式,则。
偏相关这也是相关分析中的一个重要概念。设x、Y和Z分别记同一个人每月的基本开支、文娱开支及其工资收入。经过分析,会发现x、Y之间有高度的正相关,究其原因,是由于x、Y同时受Z的影响;若把Z对二者的影响清除,则剩余部分的相关程度会有不同,甚至会变成负相关。后者就是x、Y相对于 Z的偏相关。它可用偏相关系数来度量,一般,设有变量x1,x2,…,xk,则在前述符号下,x1与x2相对于(x3,x4,…,xk)的偏相关系数是
有时,需要考虑一组变量与另一组变量的关系,为此引进了典型相关系数,相应的方法称为典型相关分析,这种相关性的研究属于多元统计分析的范围。
- 参考书目
- C.R.Rao,Linear Statistical Inference and Its Application, 2nd ed., John Wiley & Sons,New York,1973.