相关分析
半野

1.什么是相关分析

相关性评价是指回归直线或曲线对观测值的拟合程度或是用于度量变量之间相关关系的密切程度,一般用相关系数来判断。相关系数取值范围一般为[0, 1]或者[-1, 1]。一般相关性越高,相关系数的绝对值越接近于1,变量间的相关程度越密切。

相关性一般分为线性相关和非线性相关,其中线性相关又有正相关和负相关两类,在非线性相关中,一般是不谈论正相关和负相关的。因此,一般线性相关的相关性度量值取值范围为[-1, 1],而非线性相关的相关性度量值则范围则使用[0, 1]。

2.相关、回归与拟合

与相关分析紧密联系的还有两个名词:回归分析和拟合分析。回归分析和拟合分析是一种相对而言的概念,知乎上有个回答,个人感觉比较好:

从离散点的角度看,它们都有靠近某条曲线的趋势,所以这些点都在朝曲线拟合
从曲线的角度看,那些离散的都在向自己靠拢,所以这些点都在回归到曲线

所以拟合表示离散点与某个曲线方程的偏差大小,回归表示如何找到这样的曲线方程
@浪里小白龙

个人认为狭义上,相关分析是指相关性分析,甚至有时特指线性相关性分析。广义上而言,相关分析是应包含相关性分析和回归分析(拟合分析)的。有人认为,相关性分析是回归分析的前提,个人并不表示赞同,两者应是单独存在的,相关性仅仅是揭示变量间的相关程度,而变量间的关系是怎样的则是通过回归模型表示,而回归分析就是研究怎么得到这个模型的。回归分析一般都是有一个具体的数学模型,即回归方程,但是相关性分析并不是的,他们变量之间可能并不存在有具体的数学模型。一个不恰当的例子,两张重叠的A4纸,随机在上面任意相同的位置点上一个点,他们之间必然是相关的,但是他们之间的关系,可能无法通过一个数学模型来表示。在建立回归方程后,我们一般还会估算回归方程与原始观测数据之间的拟合好坏,即计算拟合优度。如果这个曲线(包括直线)是最优的曲线,拟合优度甚至可以认为是相关系数(不仅仅指线性相关系数),这样一来,相关似乎并不是回归的前提了。当然,本人非数学专业,一切均为个人非专业理解。

3.皮尔逊相关系数

相关系数最早由统计学家卡尔·皮尔逊提出,因此最常用的方法是皮尔逊相关系数,其也被称为皮尔逊积矩相关系数,其是用来描述两个变量之间线性相关程度的概念。皮尔逊相关系数定义为两个变量之间的协方差和它们各自标准差的乘积的商,其计算公式如下式所示:

其中,ρX,Y\rho_{X, Y}ρ​X,Y​​表示总体皮尔逊相关系数,Cov(X,Y)表示变量X和变量Y之间的协方差,σX\sigma_{X}σ​X​​和 σY\sigma_{Y}σ​Y​​分别表示变量X和变量Y的标准差。通过样本计算皮尔逊相关系数时,其代数形式的计算公式如下:

r=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2⋅∑i=1n(yi−y¯)2r=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}} \cdot \sqrt{\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}} r=​√​∑​i=1​n​​(x​i​​−​x​¯​​)​2​​​​​⋅√​∑​i=1​n​​(y​i​​−​y​¯​​)​2​​​​​​​∑​i=1​n​​(x​i​​−​x​¯​​)(y​i​​−​y​¯​​)​​

其中,r表示样本皮尔逊相关系数,n为样本数量,xix_{i}x​i​​和 yiy_{i}y​i​​分别表示样本中变量X和变量Y的第i个观测值,x¯\bar{x}​x​¯​​和y¯\bar{y}​y​¯​​分别表示样本中变量X和变量Y的平均值。

皮尔逊相关系数r的取值区间为[-1, 1],当*****r>0 *时,则表示变量X和变量Y之间呈**正相关关系,即一个变量会随着另一个变量的增大而增大;当 *r<0 时,则表示变量X*和变量Y之间呈负相关,即一个变量会随着另一个变量的增大而减小;当 r=0 时,表示两个变量之间不具有线性相关关系,其可能不相关,也有可能呈现其他相关关系,例如二次相关、对数相关等等。同时,r的绝对值越接近于1,则表示变量之间的相关性越强。

皮尔逊相关系数时应用最为广泛的相关关系统计量指标,但是其仅用于判断两个变量间的线性相关程度,对于多个变量间或者非常线性的相关程度的判断,可以使用偏相关系数(Partial correlation coefficient)或复相关系数(Multi-correlation coefficient,Multiple correlation coefficient)等指标来检测。

4.秩相关系数

秩相关又称等级相关,其计算的是两个变量的样本数据排序后的顺序位次之间的相关性,即用来计算有序的离散变量间的相关系数。它是反映等级相关程度的统计分析指标,常用的等级相关分析方法有Spearman秩相关系数Kendall秩相关系数等。

Spearman秩相关系数的计算公式如下:

ρs=1−6∑di2n(n2−1)\rho_{s}=1-\frac{6 \sum d_{i}^{2}}{n\left(n^{2}-1\right)} ρ​s​​=1−​n(n​2​​−1)​​6∑d​i​2​​​​

式子中,did_{i}d​i​​为两个变量内排序后的位次差值,设xi′x_{i}^{‘}x​i​​′​​​​为xix_{i}x​i​​在变量X中的位次,yi′y_{i}^{‘}y​i​​′​​​​为yiy_{i}y​i​​在变量Y中的位次,则di=xi′−yi′d_{i} = x_{i}^{‘} - y_{i}^{‘}d​i​​=x​i​​′​​​​−y​i​​′​​​​;n为观测样本的组数。

Kendall秩相关系数的计算公式[1]如下:

τa=c−dc+d=c−d12⋅n⋅(n−1)\tau_{a}=\frac{c-d}{c+d}=\frac{c-d}{\frac{1}{2} \cdot n \cdot(n-1)} τ​a​​=​c+d​​c−d​​=​​2​​1​​⋅n⋅(n−1)​​c−d​​

Kendall秩相关系数的计算比较复杂,其计算依赖于同序对异序对。首先对变量X、变量Y进行排序,对于i<ji<ji<j,则同序对是指所有的 xi<xjx_{i}<x_{j}x​i​​<x​j​​ 且 yi<yjy_{i}<y_{j}y​i​​<y​j​​,而异序对则指 xi<xjx_{i}<x_{j}x​i​​<x​j​​ 且 yi>yjy_{i}>y_{j}y​i​​>y​j​​,来看一个具体的例子:

样本编号 x y x位次 y位次 同序对ci 异序对di ci+di
1 0.1 0.2 1 1 4 0 4
2 0.2 0.9 2 4 1 2 3
3 0.7 0.8 3 3 1 1 2
4 0.9 0.7 4 2 1 0 1
5 1 1.1 5 5 0 0 0

以样本2为例,其中变量X的位次为2,变量Y的位次为4。样本中,变量X位次为2,大于样本2位次的样本的有3个(样本3、4、5),小于样本2位次的样本的有0个;变量Y的位次为4,大于样本2位次的样本的有1个(样本5),小于样本2位次的样本的有2个(样本3、4)。因此样本2对应的同序对个数为1,异序对个数为2。其实,同序对与异序对的个数之和是具有规律性的,当然前提是首先排好序。设样本中每个样本对应的同序对之和为c,异序对个数之和为d,则可以得出\tau_{a}τ​a​​,其被称为 Tau-a。Tau-a不能用于处理变量X与Y中存在相同元素的情况,为了解决这个问题可以使用 Tau-b[1:1]

τb=c−d(c+d+tx)(c+d+ty)\tau_{b}=\frac{c-d}{\sqrt{\left(c+d+t_{x}\right)\left(c+d+t_{y}\right)}} τ​b​​=​√​(c+d+t​x​​)(c+d+t​y​​)​​​​​c−d​​

Tau-b中,同序对、异序对个数的计算需要跳过位次相对的样本,txt_{x}t​x​​和tyt_{y}t​y​​分别表示变量X和变量Y 取值中,排除共同位次相同的部分后,位次相同的样本对数。来看一个具体的例子:

样本编号 x y x位次 y位次 同序对ci 异序对di
1 0.1 0.2 1 1 3 0
2 0.1 0.2 1 1 3 0
3 0.7 0.2 3 1 1 0
4 0.7 0.9 3 4 1 0
5 0.7 0.9 3 4 1 0
6 1 1.1 5 5 0 0

则,Tau-b中c=9,d=0。

对于xi=xjx_{i}=x_{j}x​i​​=x​j​​情况有2个集合:{样本1, 样本2},{样本3, 样本4, 样本5},其组合数为ttx=2(2−1)2+3(3−1)2=4t_{tx}=\frac{2(2-1)}{2} + \frac{3(3-1)}{2} = 4t​tx​​=​2​​2(2−1)​​+​2​​3(3−1)​​=4;

对于yi=yjy_{i}=y_{j}y​i​​=y​j​​情况有2个集合:{样本1, 样本2, 样本3},{样本4, 样本5},其组合数为tty=3(3−1)2+2(2−1)2=4t_{ty}=\frac{3(3-1)}{2} + \frac{2(2-1)}{2} = 4t​ty​​=​2​​3(3−1)​​+​2​​2(2−1)​​=4;

对于xi=xjx_{i}=x_{j}x​i​​=x​j​​ 且 yi=yjy_{i}=y_{j}y​i​​=y​j​​情况有2个集合:{样本1, 样本2},{样本4, 样本5},因此,对两个集合中的分别进行两两组合,共有txy=2(2−1)2+2(2−1)2=2t_{xy}=\frac{2(2-1)}{2} + \frac{2(2-1)}{2} = 2t​xy​​=​2​​2(2−1)​​+​2​​2(2−1)​​=2种情况;

所以:tx=ttx−txy=4−2=2t_{x} = t_{tx}-t_{xy} = 4 - 2 = 2t​x​​=t​tx​​−t​xy​​=4−2=2,ty=tty−txy=4−2=2t_{y} = t_{ty}-t_{xy} = 4 - 2=2t​y​​=t​ty​​−t​xy​​=4−2=2,

则:

τb=9−0(9+0+2)(9+0+2)≈0.818\tau_{b}=\frac{9-0}{\sqrt{\left(9+0+2\right)\left(9+0+2\right)}} \approx 0.818 τ​b​​=​√​(9+0+2)(9+0+2)​​​​​9−0​​≈0.818

在Spearman秩相关系数和Kendall秩相关系数中,其的取值范围均为[-1, 1]。-1表示两个变量拥有完全相反的等级相关性1表示两个变量拥有完全相同的等级相关性0表示表示两个变量不具有等级相关性绝对值越大,表示相关性越强

5.决定系数

决定系数(Coefficient of determination)亦称之为可决系数、可决指数、复决定系数等,常用于拟合分析或回归分析的拟合优度,也用于衡量一个随机变量与一个或多个随机变量之间的相互关系。决定系数常用r2表示,其计算公式如下:

r2=SSRSST=1−SSESSTr^{2}=\frac{S S R}{S S T}=1-\frac{S S E}{S S T} r​2​​=​SST​​SSR​​=1−​SST​​SSE​​

上式为线性回归中决定系数定义,其中,SSR表示回归平方和,SSE表示残差平方和,SST表示总离差平方和,且SST=SSE+SSRSST=SSE+SSRSST=SSE+SSR,SSRSSESST的计算方法如下:

SSR=∑1n(y^i−y¯)2SSR = \sum_{1}^{n}\left(\hat{y}_{i}-\bar{y}\right)^{2} SSR=​1​∑​n​​(​y​^​​​i​​−​y​¯​​)​2​​

SSE=∑1n(yi−y^)2SSE = \sum_{1}^{n}\left({y_{i}}-\hat{y}\right)^{2} SSE=​1​∑​n​​(y​i​​−​y​^​​)​2​​

SST=∑1n(yi−y¯)2SST = \sum_{1}^{n}\left({y_{i}}-\bar{y}\right)^{2} SST=​1​∑​n​​(y​i​​−​y​¯​​)​2​​

其中,yi{y}{i}y​i​​为原始样本值,y^i\hat{y}{i}​y​^​​​i​​为回归模型的估计值,y¯i\bar{y}_{i}​y​¯​​​i​​为原始样本值的均值。

与皮尔逊相关系数的区别在于,决定系数的取值范围为[0, 1],且决定系数没有正、负相关的概念。当两个变量为线性相关时,决定系数为皮尔逊相关系数的平方。

在非线性回归中,SST=SSE+SSRSST=SSE+SSRSST=SSE+SSR 不再成立,但是依然使用 r2=1−SSESSTr^{2}=1-\frac{S S E}{S S T}r​2​​=1−​SST​​SSE​​ 定义非线性回归中的拟合优度,此时决定系数的取值范围变不在是[0, 1],而是(-∞, 1],不过大多数情况下是在[0,1]之间[2]

为解决向模型中增加变量导致决定系数变大的问题,可以使用校正后的决定系数,其计算公式如下:

r2_adjusted=1−(1−r2)n−1n−p−1{r}^{2}_adjusted=1-\left(1-r^{2}\right) \frac{n-1}{n-p-1} r​2​​_adjusted=1−(1−r​2​​)​n−p−1​​n−1​​

其中,r2为决定系数,n为观测数据的个数,p为自变量的个数,即样本为n组[x1, x2, …, xp, y]。

6.皮尔逊相关系数判断拟合优度

决定系数不失为一种进行拟合优度判断的方法,但是在非线性回归中,其取值范围不是一个有界值,而是(-∞, 1],难以判定一个回归模型的拟合到底有多差(当然,大多数情况下我们可能都不需要如此判断)。借助于皮尔逊相关系数,计算原始观测值YYY与回归估算值Y^\hat{Y}​Y​^​​之间的线性相关性,是一种不错的选择。如果估算值与观测值完全相同,则表明回归模型非常好,模型曲线经过了所有的原始观测值,此时YYY和Y^\hat{Y}​Y​^​​应位于斜率为1的直线上。原始观测值YYY与回归估算值Y^\hat{Y}​Y​^​​之间的线性相关性越高,则表明两者的相关性应越好,甚至可以对YYY与Y^\hat{Y}​Y​^​​建立y=xy=xy=x的回归模型,来计算原始回归模型的拟合优度。

注:Kendall秩相关系数内容主要参考自引文2。

引文:

1.
https://guyuecanhui.github.io/2019/08/10/feature-selection-kendall/ ↩︎↩︎

2.
https://blog.csdn.net/weixin_38100489/article/details/78175928 ↩︎

由 Hexo 驱动 & 主题 Keep
总字数 105.7k 访客数 访问量