统计学:从数据到结论,ISBN:9787503749964,作者:吴喜之 @豆瓣
统计推断(statistical inference):从数据得到关于现实世界的结论的过程。
由于统计学的研究对象是不可能穷举的大量个体,通常需要通过抽样方法得到样本,再用样本去推断总体的情况,
所以统计推断得出的不是一个精确的结论,而是近似结果。
统计推断的两个重要的方法是:
- 估计(estimation)
- 假设检验(hypothesis testing)
本章介绍估计,下一章介绍假设检验
5.1 用估计量估计总体参数
假定分布族
在通过样本信息推断总体情况之前,先假设总体的属性复合某种分布特征(分布族)。比如:
- 假设身高符合正态分布族
- 假设对某个观点的认同与否符合二项分布族
这些假设一半是通过经验获得,无法明确的证明。
确定具体分布
一个分布族下面的各种分布只是参数不同,通过研究样本确定这些参数,也就确定了具体分布。
常见的分布参数:
- 总体均值
- 总体标准差
- 成功概率
正态分布由总体均值和标准差两个参数决定;
Bernoulli分布由概率一个参数决定
确定参数的过程是一个估计的过程,来源于样本数据。
通过样本计算的各种统计量中,用于估计的统计量称为估计量(estimator)。
估计量随样本的不同具有随机分布;对于给定的样本有一个给定的值,称为估计值(estimate)。
两种估计:
- 点估计(point estimation):用一个估计值来近似总体参数
- 区间估计(interval estimation):用一个包括估计值在内的区间表示总体参数很可能处于的范围
5.2 点估计
任何统计量都可以作为估计量。
估计量的命名可以来自:
- 衡量一个估计量的好坏的某个标准
- 估计量的计算方式
常见的估计量:
- 样本均值:用于估计总体均值
- 样本标准差(s):用于估计总体标准差
- 成功比例(x/n):用于估计成功概率p
无偏估计量(unblased estimator):多个样本产生的估计量的期望等于要估计的总体参数,这样的估计量称为无偏估计量。
上述三种估计量都是无偏估计量。
5.3 区间估计
为了更准确的表达估算量,通常采用点估计和区间估计结合的说法。比如:
估计值+置信区间+置信度
其中:
- 估计值是对总体量的点估计
- 置信区间(confidence interval)是以估计值为中心的区间估计,包括上限(upper bound)和下限(lower bound)
- 置信度(confidence level)是抽取大量样本时,该区间会覆盖样本估计值的比例
5.4 关于置信区间的注意点
置信度描述的是统计量覆盖总体参数的概率,而不是置信区间覆盖总体参数的概率
置信度越低,则置信区间越窄