👉 [参数: Parameters] 关于population(总体)的一些性质;是一个固定的、确定的、但是未知的值;需要我们根据样本来进行估计。例如:若全世界人的血压是总体,那么全世界人的血压的平均值就是一个parameter,它真实存在。
👉 [样本统计量: Sample statistics (Estimator)] 单纯根据样本计算出的一些值;因此不能含有任何parameters;是随机变量(因为不同的样本会得到不同的estimator的值)。
👉 [抽样分布: Sample distribution] Estimator是随机变量,它的分布。
衡量一个estimator的好坏,有两个层面的衡量:
👉 [样本空间: Sample Space] 由一个实验所有可能结果所组成的集合。
👉 [随机变量: Random Variable] 从样本空间到实数域的一个映射。
👉 [概率函数: Probability Function] 给r.v.的range里的每一个值分配一个“数字”。对于concrete随机变量,称为probability mass function;对于continuous随机变量,称为probability density function。
👉 [概率分布: Probability Distribution] relationship between r.v. and probability function。
如果总体服从正态分布$N(\mu, \sigma^2)$,n个样本i.i.d.且与总体同分布。则sample mean服从:
$$ \overline{X}=\frac{X_1+X_2+\cdots+X_n}{n} \sim N(\mu, \frac{\sigma^2}{n}) $$
如果总体并不服从正态分布,但知总体均值为$\mu$ 总体方差为$\sigma^2$。样本量较大时,sample mean近似:
$$ \overline{X}=\frac{X_1+X_2+\cdots+X_n}{n} \sim N(\mu, \frac{\sigma^2}{n}) $$
中心极限定理(Central Limit Theorem)
👉 [林德伯格定理] $X_1,\cdots,X_n$独立同分布,且$EX=\mu$、$VarX=\sigma^2$。则当$n \rightarrow \infty$时,有: