How other variables influence the association we are studying?
- Interaction: is the association between x and y the same in various subgroups?
- Confounding: can the observed association between x and y be explained, or partly explained by other factors?
1. Interaction
例如,y和x1的关系,受x2水平的影响。我们的模型变为:
$$
y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_1x_2 + \epsilon
$$
例如,x2是discrete的,假设取0或1:
Remarks:
- 虚假交互很容易因为极端值而被做出来,需小心。
- 若交互项是显著的,报告后结束;若交互项是不显著的,则再fit一次无交互项的模型。
- 拟合交互项需要更多的样本。
- 当模型中存在交互项时,对构成这些交互项的自变量进行检验时不准确的。正确做法是:先不放交互项做模型,保留显著的自变量;然后做交互项,在含交互项的模型中只对交互项进行检验。
- 共线性问题:交互项和构成它的自变量间常常存在较强的相关关系,易导致多重共线性。解决方法是,将相关的自变量mean center,并用mean center后的值构造交互项。
2. Confounding
[表现] If beta1 changes dramatically when x2 is introduced in the model.
[内因] 若不控制x2,则x1和y之间的关系会被x2混淆,不是纯净的。
[检测] 不引入x2回归一次,引入x2回归一次;比较两次的beta1的差距(by经验)。