1. Model

在linear regression中,因为$y_i \in R$,所以我们的模型是:

$$ y_i \sim N(\beta^T \mathbf{x}_i,\sigma^2) $$

而在logistic regression中,因为$y_i \in \{0,1\}$,所以我们的模型是:

$$ y_i \sim \text{Bern}(p_i) $$

其中(log odds是covariates的linear combination):

$$ \ln(\frac{p_i}{1-p_i}) = \beta^T \mathbf{x}_i $$

也即:

$$ p_i = \frac{\exp(\beta^T \mathbf{x}_i)}{1+\exp(\beta^T \mathbf{x}_i)} $$

模型假设:①independence ②pi的形式。

2. Coefficient interpretation

由于$\beta^T \mathbf{x}_i$表示的是$y_i=1$的log odds,因此$\beta_0$就表示在所有covariates为0的条件下,y=1的log odds。而$\beta_k$表示在其他covariates不变的条件下$x_k$每增加一个单位y=1的log odds的变化值:

$$ \ln(\frac{p'}{1-p'})-\ln(\frac{p}{1-p}) = \ln(\frac{p'/(1-p')}{p/(1-p)}) $$

即「xk增加1后」与「xk增加1前」的log odds (y=1 w.r.t. y=0) ratio:

3. Estimation

方法:MLE。先写出log-likelihood function,然后求解最优化问题。注意这里的最优化问题的解没有closed form,需要用迭代法求解,如gradient descent。