1. 一个例子:信教程度&民权意识

以一个例子引入:探究宗教如何影响黑人的民权意识?自变量:信教程度(非常虔诚、有点虔诚、不怎么虔诚、根本不信教);因变量:民权意识激进程度(激进、不激进)。

Untitled

Tip: 自变量放在列上,因变量放在行上,表横着读。

由上表知,随着信教程度的加深,激进份子的占比下降。因此得出结论:信教会减弱民权意识。然而我们有理由怀疑,这个关系是由于「教育程度」这个变量的混淆引起的(教育程度越高,信教程度越低,激进程度越强):

Untitled

验证1:受教育程度和宗教信仰的关系

Untitled

Tip:通常只看两个极端的因变量类别。

【结论1】受教育程度越高,信教程度越低。

验证2:受教育程度和激进程度的关系

Untitled

【结论2】受教育程度越高,激进程度越高。综合结论1和结论2,我们更加怀疑信教程度和激进程度之间的关系是受受教育程度混淆而引起的虚假相关。

【验证3】控制受教育程度,在每个受教育程度相同的组内,看信教程度和激进程度的关心

Untitled

Tip: 控制变量放在最外列,自变量放在列上,因变量放在行上,表横着读,每组内比较。

【结论3】每个组里,信教程度减弱,激进程度增加。也就是控制了受教育程度后,信教程度和激进程度依然呈现负相关关系。

还需要再加入控制变量吗?一个法则是:若新引入的控制变量与已经引入的控制变量高度相关,则引入其几乎没有用。比如该例中,引入「年龄」这个控制变量没啥用:因为年龄和受教育程度高度相关。

若因变量为二分变量,自变量有2个,可以做下面这种表: