Transforming y and/or x has the potential to remedy a number of model problems. We try a transformation and then check to see if the transformation eliminated the problems with the model. If it doesn't help, we try another transformation, and so on. We continue this cyclical process until we've built a model that is appropriate and we can use it.
1. Log transformation
一些经验法则↓
- 使用自然对数e来做log变换。
- 当non-linearity严重时,对X做log变换。
- 注意,当linearity出现问题时我们不能继续检验equal variances,但可以检验normality。
- 若linearity没问题但出现了unequal variances,对Y做log变换。
- 总之,对Y做任何变换,一定是我们认为误差项那里的假设出了问题;而对X做任何变换,主要是我们认为非线性是问题的大头。
- 若各种问题均出现(non-normality & unequal variances & not normal),对X和Y都做log变换。
- 做完log变换后注意回归系数的解释:
- 只变换Y:1单位X的增加 → (100×β1)%的Y变化
- 只变换X:1%X的增加 → 0.01×β1的Y变化
- 同时变换X和Y:1%X的增加 → (β1)%的Y变化
2. Polynomial regression
$$
y = \beta_0 + \beta_1 x + \beta_2x^2 + \beta_3x^3 + \cdots
$$
Remarks:
- Hierarchical principle: 若higher term保留在model中,则lower term也必须在,不论lower term是否显著——因为没有低次项,就难以解释高次项。
- 多重共线性:用mean center来缓解。
- 解释:x每增加一个单位,E(y)的变化不再是固定的,而是取决于x的值。
- 假设检验:首先对该自变量的所有次方项进行联合检验,以确定是否需要引入该变量;若通过,再对高次项进行检验,看是否需要引入该变量的高次项。
- 一个应用:piecewise polynomial (i.e. splines)
- Motivation: relationship between y and x is different for different ranges of x
- Hence, divide the range of x into some segments; fit an appropriate f in each seg
-
step 1: 决定切点(i.e. knots)
-
step 2:
3. Dummy variables
某个定类变量有M组,则先确定baseline group,然后对其余组构造M-1个dummy variables。例如race变量表示种族,有三个可取值——Caucasian, African American, Asian。若我们以Asian为baseline,引入x1和x2: