1. Poisson regression model

Poisson regression should be used when the dependent variable is a count variable, such as the number of times an event occurs in a given time period**:**

$$ y_i \in N $$

The model can be split into 2 parts - ①RANDOM component:

$$ P(y_i|\mathbf{x}_i) = f(y_i, \mu_i) = \frac{e^{-\mu_i}× \mu_i^{y_i}}{y_i !} $$

Systematic component & linkage:

$$ \ln(\mu_i) = \beta^T\mathbf{x}_i $$

Remarks: random component表明$y_i \sim \text{Poiss}(\mu_i)$

2. Offset

在上面的模型中,$y_1, y_2, y_3,\cdots$表示在相同的time interval里的count。如果我们的data明确告诉我们,$y_i$对应不同的interval length $t_i$,比如:y1表示1h内的电话数,y2表示3h内的电话数……

这种情况下,我们依然可以做泊松模型,只是要稍微修正下:

$$ y_i \sim \text{Poiss}(\lambda_it_i)\\

\ln(\lambda_i) = \beta^T\mathbf{x}_i $$

其中引入的$\lambda_i$表示单位时间长度内的count。对第二个式子进行变形:

$$ \ln(\lambda_i t_i) = \beta^T \mathbf{x}_i + \ln(t_i) $$

令$\mu'_i = \lambda_it_i$,就可以按「普通泊松回归+调整systematic linkage」做了。其中的$\ln(t_i)$被称为offset

3. Coefficient interpretation

拟合方法还是MLE。检验方法依然可以用likelihood ratio test。

系数解释: