相关和回归方法的选择

By: Sid(cnqdcyq@163.com) Date: 2021/9/12


  相关分析和回归分析是常见的变量关系分析方法,总结一下不同方法的适用情况和使用细节。本文大量参考《应用数理统计方法》(陶澍,1994)。

相关分析和回归分析的差异

  相关分析和回归分析在很多方面有差异,如探究的问题、适用的变量类型。

探究问题的差异

  根本上来说,两个方法的差异是研究目的的不同。

  从研究流程上来说,往往会先用相关分析探究两个变量之间是否存在关系,受变量影响的强度,然后用回归分析探究变量之间的函数关系,以用来预测和估值。

变量类型的差异

  以二元分析为例,相关分析和回归分析分别是是研究一个变量是否或如何受到另一个变量的影响,我们称前者为因变量,称后者为自变量。相关分析要求自变量和因变量都是随机变量,而回归分析的自变量可以是随机变量也可以是固定变量。

相关分析

  当要探究变量之间的关系,同时确保变量都是随机变量时,可以确定使用相关分析。但不同的变量个数和不同的变量类型决定了要采用不同的相关分析方法。下面介绍相关分析的具体方法和选择的依据,以及不同方法会有不同用途。最后介绍相关分析的一般判别步骤。

选择相关分析的方法

根据变量数量和变量类型的不同,相关分析要选择不同的方法。

表1 相关分析方法的选择(改自陶澍,1994)
变量个数二元相关分析多元相关分析
参数方法Pearson相关系数偏相关系数
复相关系数
典型相关分析
非参数方法Spearman秩相关系数
Kendall秩相关系数
双向列联系数
Kendall偏秩相关系数
Kendall和谐系数

参数方法和非参数方法:所有变量服从正态分布,则用参数方法,如果有变量不符合正态分布,使用非参数方法。

下面介绍四种分析方法的不同用途:分别是偏相关、复相关、典型相关和和谐系数。

偏相关分析

偏相关分析的作用是确定两个要探究的变量,固定其他变量,探究其他变量不变化的情况下,两个变量之间是否存在关系。

复相关分析

复相关分析是选定一个变量和另外的一组变量,探究这一个变量在和这一组变量之间的关系,是否随这组变量的变化而变化。

和谐系数

和谐系数的分析是选定一组变量,探究这组变量相互之间是否存在关系。

典型相关分析

典型相关分析是选定两组变量,两组变量之间是否存在共同变化的关系。

相关分析的一般步骤

想要做相关分析时,应按照如下六步进行探究:

  1. 确定探究的问题是变量之间是否存在关系
  2. 分析变量是否都是随机变量
  3. 判定变量类型,是否服从正态分布,或需要做正态变换
  4. 根据变量个数和类型确定具体的分析方法
  5. 计算相关系数
  6. 对相关系数做显著性检验

回归分析

  回归分析用于得到变量之间的函数关系,以实现根据给定的值对因变量进行预测或者估值。记建立函数关系是自变量的范围是D,若给定的值位于区间D内,称为为估值;若给定的值超出了区间D,称为预测。

  回归分析也有不同的类型和方法,需要根据变量的个数和类型来选择具体的回归分析方法。根据变量类型的差异,可以分为模型I的回归分析和模型II的回归分析。如果自变量是固定变量,如0-30度的梯度实验数据,温度为自变量是固定值,那么就是模型I的回归分析。如果自变量也是随机变量,那么需要用模型II的回归分析。

  经常会有研究没有区分模型I和模型II,如果错用了模型I的最小二乘法来处理自变量为随机变量的函数关系,虽然在预测的时候不会有很大误差,但是作为估值手段的时候是不可取的。模型I需要自变量是固定变量,估值的误差不会在自变量中产生,只会在因变量中产生;而当自变量是随机变量的时候,真实的自变量可能在[Xσ,X+σ]这个区间内,直接代入模型I函数关系获取到的估值不是真实的自变量的估值。也即不仅估值会产生误差,自变量也会产生误差。而使用模型II可以将这个问题解决掉。

表2 模型I和模型II的回归分析方法(改自陶澍,1994)
模型自变量类型以估值为目的以预测为目的
I固定变量最小二乘法最小二乘法
II随机变量主轴法、约化主轴法、Bartlett方法最小二乘法