Regression line的一个重要用处是:给一个新的自变量$x_0$,预测其因变量的取值。这里需要注意,由于本身给定一个具体的自变量,也不会对应到一个特定的因变量值——只会对应到一个特定的均值的分布,所以我们的“预测”有两层含义。

1. Confidence interval

for estimating the mean response for a given value of the predictor x.

i.e. 预测$E[y_0|x_0]$(deterministic)

显然$\hat{y_0} = \hat{\beta_0} + \hat{\beta_1}x_0$是其无偏点估计量。故用$\hat{y_0}$构造。区间估计如下:

Untitled

2. Prediction interval

for predicting a new response for a given value of the predictor x.

i.e. 预测$y_0$(random)

易知,further observation $y_0$ is independent to $\hat{y_0}$。故用$\hat{y_0}-y_0$构造。区间估计如下:

Untitled

需要注意,case2的预测区间要比case1的置信区间宽一些,这是由于y0本身的randomness:

Untitled