1. Probability

1.1 Parameters, Sample statistics, Sample distribution

👉 [参数: Parameters] 关于population(总体)的一些性质;是一个固定的、确定的、但是未知的值;需要我们根据样本来进行估计。例如:若全世界人的血压是总体,那么全世界人的血压的平均值就是一个parameter,它真实存在。

👉 [样本统计量: Sample statistics (Estimator)] 单纯根据样本计算出的一些值;因此不能含有任何parameters;是随机变量(因为不同的样本会得到不同的estimator的值)。

👉 [抽样分布: Sample distribution] Estimator是随机变量,它的分布。

衡量一个estimator的好坏,有两个层面的衡量:

  1. Biases(偏差):指estimator的均值与parameter之间的差距;是一个确定值;表示「系统误差(systematic error)」;可以消除的,即bias可以为0。
  2. Random variation(方差):指estimator每一次的realization与estimator均值的差距;是一个随机值,和具体的样本有关;表示「非系统误差」;不可以消除的,即variance不可为0。

1.2 Sample space, Random variable, Probability function

Untitled

👉 [样本空间: Sample Space] 由一个实验所有可能结果所组成的集合。

👉 [随机变量: Random Variable] 从样本空间到实数域的一个映射。

👉 [概率函数: Probability Function] 给r.v.的range里的每一个值分配一个“数字”。对于concrete随机变量,称为probability mass function;对于continuous随机变量,称为probability density function。

👉 [概率分布: Probability Distribution] relationship between r.v. and probability function。

1.3 Sample distribution & LLN

如果总体服从正态分布$N(\mu, \sigma^2)$,n个样本i.i.d.且与总体同分布。则sample mean服从:

$$ \overline{X}=\frac{X_1+X_2+\cdots+X_n}{n} \sim N(\mu, \frac{\sigma^2}{n}) $$

如果总体并不服从正态分布,但知总体均值为$\mu$ 总体方差为$\sigma^2$。样本量较大时,sample mean近似:

$$ \overline{X}=\frac{X_1+X_2+\cdots+X_n}{n} \sim N(\mu, \frac{\sigma^2}{n}) $$

中心极限定理(Central Limit Theorem)

👉 [林德伯格定理] $X_1,\cdots,X_n$独立同分布,且$EX=\mu$、$VarX=\sigma^2$。则当$n \rightarrow \infty$时,有: