统计学:从数据到结论,ISBN:9787503749964,作者:吴喜之 @豆瓣
##第3章 数据的描述
2013-05-31: 1st
数据难以一目了然,但数据的特征容易掌握(如:定性or定量,变量的个数,收集目的等)
借助图表和一些运算有利于掌握更多关于数据的特征
数据的特征反映了总体的特征
数据特征的图形表示
定量变量的图形表示
定性变量(属性变量,分类变量)的图形表示
数据的概括
用汇总/概括统计量来描述定量变量
统计量:summary statistic
样本的随机性决定了统计量的随机性
样本统计量 vs 总体统计量
可以用样本统计量估计总体统计量
可以用样本统计量来检验对总体的假设
概括数据通常使用以下统计量
数据的位置
均值容易受单个样本偏差 or 少数极端值的影响,但位置不会
中位数比均值稳健(robust)
中位数,上下四分位数,
alpha= k百分位数(k-pecentile):有k% 的观测值小于alpha, alpha称为alpha分位数(quantile)
众数(mode):样本中出现最多的数目。 使用得较少
数据的尺度
描述数据的分布是否均匀
尺度统计量描述数据集中与分散的程度或变化(散度统计量)
数据越分散,尺度统计量的值越大
极差(range), 最大、最小值之差
如,盒形图中盒子的高度(有时为宽度)表示四分位间距(interquantile range)
标准差,方差
标准差是方差的平方根
单峰值数据的分布(1delta=68%, 2delta=95%),多峰值数据的分布。。。
同一总体,多个不同样本的均值的标准差称为标准误差(standand error)
数据的标准得分
如,两个水平接近的班级,两个老师进行评分。由于评分标准不同,两个班成绩的均值和标准差都不一样。
如何放在一起评价?方法:数据标准化——可以理解为对盒形图的缩放和位移
标准得分是比较常用的一种标准化方法:
标准得分z = (得分-样本均值)/样本标准差