跳动百科

相关系数的计算公式

师国昭   来源:网易

相关系数是衡量两个变量之间线性关系强度和方向的一种统计指标。最常用的相关系数是皮尔逊积矩相关系数(Pearson Product-Moment Correlation Coefficient),它反映了两个连续变量之间的线性关系。皮尔逊相关系数的取值范围从-1到+1,其中+1表示完全正相关,-1表示完全负相关,而0则表示没有线性关系。

皮尔逊相关系数的计算公式

假设我们有两个变量X和Y,每个变量都有n个观测值。皮尔逊相关系数(记作r)可以通过以下公式计算:

\[ r = \frac{\sum_{i=1}^{n}(X_i - \overline{X})(Y_i - \overline{Y})}{\sqrt{\sum_{i=1}^{n}(X_i - \overline{X})^2}\sqrt{\sum_{i=1}^{n}(Y_i - \overline{Y})^2}} \]

其中:

- \(X_i\) 和 \(Y_i\) 分别代表X和Y变量的第i个观测值。

- \(\overline{X}\) 和 \(\overline{Y}\) 分别是X和Y变量的平均值。

- 分子表示X和Y变量偏差乘积的总和,分母则是X和Y变量偏差平方和的乘积的平方根。

这个公式直观地表达了两组数据之间的协变程度,即当一个变量增加时,另一个变量如何变化。如果分子为正,则表明X和Y同向变动;若为负,则表明它们反向变动。分母确保了结果在[-1, +1]区间内。

计算步骤

1. 计算平均值:首先计算X和Y的平均值。

2. 求差值:计算每个观测值与各自平均值的差。

3. 计算乘积和:将每对(X, Y)的差值相乘,并求和。

4. 计算方差和:分别计算X和Y的差值平方的和。

5. 计算标准差:对上述方差和开平方根。

6. 计算相关系数:用乘积和除以两个标准差的乘积。

通过上述步骤,我们可以得到两组数据之间的皮尔逊相关系数,进而了解它们之间的线性关系强度和方向。这种方法广泛应用于各种领域,如经济学、生物学、心理学等,用于分析不同变量之间的关联性。