1. Pearson correlation coefficient

Pearson correlation coefficient就是我们一般意义上常说的“相关系数$\rho$”。它是总体的一个参数,其估计量为$r$,称为“样本相关系数”。

两个随机变量之间的协方差Covariance

$$ Cov(X,Y)= E\bigg\{(X-EX)(Y-EY)\bigg\} $$

相关系数Correlation Coefficient(默认指总体相关系数Population Correlation Coefficient):

$$ \rho = \frac{Cov(X,Y)}{\sqrt{Var(X)·Var{(Y)}}} $$

样本相关系数Sample Correlation Coefficient,$r$:

$$ r = \frac{\sum_{i=1}^n (x_i -\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2 \sum_{i=1}^n(y_i-\bar{y})^2 }} = \frac{S_{xy}}{\sqrt{S_{xx} S_{yy}}} $$

一般来讲$r$不是$\rho$的unbiased estimator;但当样本量趋于无穷大时,是unbiased的。

2. Relation with linear regression

由$\hat{\beta_1} = \frac{S_{xy}}{S_{xx}}$,故$r$和$\hat{\beta_1}$之间有如下数量关系:

$$ r = \sqrt{\frac{S_{xx}}{S_{yy}}} ·\hat{\beta}_1 = \frac{s_X}{s_Y}·\hat{\beta}_1 $$

其中$s_X^2$与$s_Y^2$分别为X和Y的样本方差。可见,样本相关系数$r$和回归系数$\hat{\beta_1}$同号:

同时,易证明(左侧为拟合优度R方):

$$ R^2 = r^2 $$

3. Confidence interval of ρ