1. Poisson regression (without offset)
Data preparation:
Fit the Poisson regression model:
- 回归方程
- $\ln(\mu_i) = 0.308+0.0764x_i$
- $y_i \sim Poiss(\mu_i)$
- 系数解释
- 0.308:当x=0时,y的均值为$\exp(0.308) = 1.361$
- 0.0764:x每增加1单位,y的均值变为原来的$\exp(0.0764)=1.08$倍
- Wald test:slope显著不为0
- Deviance information
- 回顾LR中的内容,deviance表示一个模型与saturated model的距离。
- Null deviance表示null model的deviance:null model即为no predictors的model。可以看到null model的deviance为48.310。
- Residual deviance表示我们的model的deviance。可以看到我们模型的deviance位27.842。
- Null deviance减去Residual deviance得到「deviance test statistic」,这里为48.310-27.842=20.468——我们可以用来test H0(beta1=0)。当H0为真时,该统计量服从自由度为(2-1=1)的卡方分布。使用命令
1-pchisq(20.468, df=1)
得到p值为6.063e-06,说明可以拒绝H0。
- 可以作为GOF的几个数值
- residual deviance:越小越好(与饱和模型越接近)
- AIC:越小越好
2. Poisson regression (with offset)
Data preparation: a dataset called eba1977
from the ISwR package. This data set contains counts of incident lung cancer cases and population size in four neighbouring Danish cities by age group.
在本例中,字段pop就是一个明显的interval字段。因此我们用带有offset的泊松回归模型:
$$
y_i \sim \text{Poiss}(\lambda_it_i)\\
\ln(\lambda_it_i) = \beta^T\mathbf{x}_i + \ln(t_i)
$$
有两步不同:第一,需要将interval字段取ln后变成新的一列;第二,在回归时用offset将该log_interval字段包起来: