0%

《统计学》读书笔记(3/17:数据的描述)

统计学:从数据到结论,ISBN:9787503749964,作者:吴喜之 @豆瓣

##第3章 数据的描述

2013-05-31: 1st

数据难以一目了然,但数据的特征容易掌握(如:定性or定量,变量的个数,收集目的等)

借助图表和一些运算有利于掌握更多关于数据的特征

数据的特征反映了总体的特征


数据特征的图形表示

  • 定量变量的图形表示

    • 直方图

      表达数据分布的疏密。纵坐标可以是数量或百分比

      如:人数-年龄,人数-财富值。

    • 盒形图

      指标(最大值,上四分位数,中位数,下四分位数,最小值)-> 条件,表达指标的多个特征在某种条件下的分布形态

    • 茎叶图

      既表达形状,又包含数据

    • 散点图

      用于比较成对的数值。散点图通常用于比较跨类别的聚合数据

  • 定性变量(属性变量,分类变量)的图形表示


数据的概括

用汇总/概括统计量来描述定量变量

统计量:summary statistic

样本的随机性决定了统计量的随机性

样本统计量 vs 总体统计量

  • 可以用样本统计量估计总体统计量

  • 可以用样本统计量来检验对总体的假设

概括数据通常使用以下统计量

  • 数据的位置

    均值容易受单个样本偏差 or 少数极端值的影响,但位置不会

    中位数比均值稳健(robust)

    中位数,上下四分位数,

    alpha= k百分位数(k-pecentile):有k% 的观测值小于alpha, alpha称为alpha分位数(quantile)

    众数(mode):样本中出现最多的数目。 使用得较少

  • 数据的尺度

    描述数据的分布是否均匀

    尺度统计量描述数据集中与分散的程度或变化(散度统计量)

    数据越分散,尺度统计量的值越大

    • 极差(range), 最大、最小值之差

      如,盒形图中盒子的高度(有时为宽度)表示四分位间距(interquantile range)

    • 标准差,方差

      标准差是方差的平方根

      单峰值数据的分布(1delta=68%, 2delta=95%),多峰值数据的分布。。。

      同一总体,多个不同样本的均值的标准差称为标准误差(standand error)

  • 数据的标准得分

    如,两个水平接近的班级,两个老师进行评分。由于评分标准不同,两个班成绩的均值和标准差都不一样。
    如何放在一起评价?

    方法:数据标准化——可以理解为对盒形图的缩放和位移

    标准得分是比较常用的一种标准化方法:

    标准得分z = (得分-样本均值)/样本标准差