How other variables influence the association we are studying?

1. Interaction

例如,y和x1的关系,受x2水平的影响。我们的模型变为:

$$ y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_1x_2 + \epsilon $$

例如,x2是discrete的,假设取0或1:

Untitled

Remarks:

  1. 虚假交互很容易因为极端值而被做出来,需小心。
  2. 若交互项是显著的,报告后结束;若交互项是不显著的,则再fit一次无交互项的模型。
  3. 拟合交互项需要更多的样本。
  4. 当模型中存在交互项时,对构成这些交互项的自变量进行检验时不准确的。正确做法是:先不放交互项做模型,保留显著的自变量;然后做交互项,在含交互项的模型中只对交互项进行检验。
  5. 共线性问题:交互项和构成它的自变量间常常存在较强的相关关系,易导致多重共线性。解决方法是,将相关的自变量mean center,并用mean center后的值构造交互项。

2. Confounding

[表现] If beta1 changes dramatically when x2 is introduced in the model.

[内因] 若不控制x2,则x1和y之间的关系会被x2混淆,不是纯净的。

[检测] 不引入x2回归一次,引入x2回归一次;比较两次的beta1的差距(by经验)。