1. Model & Assumptions
Four Assumptions (”LINE”)
- 「线性(Linearity)」 指相对$\beta_0$和$\beta_1$是线性的。例如,可以有$x_i^2$,但是不能有$\beta_1^2$。
- **「样本独立(Independent)」**这n个样本是相互独立的,也即$\epsilon_i$相互独立。
- **「正态(Normality)&等方差(Equal variances)」**每个样本的误差项$\epsilon_i$方差相等且正态分布。
Remarks
- 统计理论保证大家用不同样本来做会得到相当一致的结果而非换一组样本结论就不同了。
- 模型的成立往往是基于一系列的假设,无假设就无模型。因此,拿到一笔资料,如果想用某个模型,要先看看这笔资料是否符合该模型的假设;如果不符合,要么选用其他模型,要么做data transformation使之符合这些假设。
2. Interpretation of regression coefficients
$$
y_i = \beta_0+\beta_1x_i + \epsilon_i \quad, i=1,2,\dots,n
$$
$\beta_0$ = 当x为0时y的mean
- “当x=0”,这个往往是unreal的,因此这样解释$\beta_0$没啥意义;
- 所以,往往先对x进行mean center:$x_i \rightarrow x_i-\bar{x}$
- 这样:$y_i = (\beta_0+\beta_1\bar{x})+\beta_1(x_i-\bar{x})+\epsilon_i = \beta_0^* + \beta_1x_i^*+\epsilon_i$
- 这样:$\beta_0^*$表示当x为mean(x)时y的mean;
- 因此,Center x whenever possible。
$\beta_1$ = the difference in mean y per 1 unit change in x
- 接受上述解释,也就隐含着接受「线性假设」的推论:the difference in mean y is the same for every 1 unit difference in x, no matter what the value of x is。