0%

《统计学》读书笔记(2/17:数据的收集)

统计学:从数据到结论,ISBN:9787503749964,作者:吴喜之 @豆瓣

##第2章 数据的收集

2013-05-19: 1st

  • 获取数据

    一手数据vs二手数据——自己调研的or别人公布的

    观测数据 vs 试验数据——是否可控

  • 个体、总体和样本

    单个对象:个体element, individual, unit

    所有要研究的个体的集合:总体(有限总体)population

    被研究的个体的集合:该总体的一个样本sample

    抽样方法:

    • 简单随机抽样:每个个体有同等机会被选到样本——随机样本random sample

    • 样本量sample size

    • 随机样本的产生:使用随机数(random number)

    • 方便样本:比如。。。

  • 收集数据时的误差

    样本的特征(比如男女比例)不一定和总体完全一样,这叫抽样误差(sampling error)

    调查问卷不一定被回答,这叫未响应误差(nonresponse error)

    回答不一定真实,这叫响应误差(response error)

    • 抽样误差不可避免
    • 未响应误差和响应误差应该尽量避免
  • 抽样调查和一些常用的方法

    抽样调查的设计目的是确保样本对总体的代表性,以保证后续推断的可靠性

    抽样方法可以分为概率抽样方法和非概率抽样方法

    概率抽样假定每个个体出现在样本中的概率是已知的,从而能够对数据进行合理的统计推断;

    非概率抽样方法比较省时省力,但是推断时要慎重:依赖于抽样方案的设计和实施,

    这种推断无法根据漂亮的统计理论来进行,也很难客观建立抽样误差的范围。

简单随机样本(全部随机抽样)很难实施,通常会采用局部随机抽样。下面是一些抽样方法:

  1. 概率抽样方法

    • 系统抽样:

      根据样本量确定距离n;

      为每个单元编号;

      随机选取一个开始点;

      安装n等距抽样。

      如果编号是随机的,则等价于简单随机抽样。

    • 分层抽样

      对样本进行分类;

      在各类中简单随机抽样;

      对结果进行汇总。

      可以按照比例,也可以不安装比例,也可以加权(加权系数的和为1)

    • 整群抽样

      把总体划分成若干群cluster, 群中的个体不相似;

      随机抽取几个群;

      单级整群抽样:调查抽取的整个群;两级整群抽样:对随机抽取的群再进行简单随机抽样

      适用于各群差异不大的情况,主要用于区域抽样。

    • 多级抽样

      多层次分群,在最后一级进行调查

      每级的抽样方法可能不同,整个抽样计划可能比较复杂

  2. 非概率抽样方法

    • 目的抽样

      主观选择对象,样本的多少依赖于预先就有的知识

    • 方便抽样

      随意选取(不具有随机性),用于初期的评估或探索性研究

    • 判断抽样

      主观评判选择样本,是方便抽样的延伸

    • 定额抽样

      非概率的分层抽样。先确定分类和比例,然后对各类进行方便抽样或判断抽样

    • 雪球抽样

      对于样本稀少的情况,依赖于一个目标推荐另一个目标,偏差较大

    • 自我选择

      让个体自愿参加调查

  3. 实际的抽样方法可能是各种抽样方法的组合。考虑精确度的同时,考虑方便性、可行性、经济性


计算机中常用的数据形式:

  • 原始数据

  • 汇总表格(不能还原成原始数据)


小结

数据总是从一个总体中抽取出来的,是总体的一个代表,称为样本

数据是否可控分为观测数据和试验数据

数据来源可以分为一手数据和二手数据

数据科恩能够有抽样误差(不可避免),对于响应/非响应误差要尽量避免

样本的抽取有多种方法

抽取样本、收集数据是为了从样本中得到总体的信息,关系到后续分析和推断的结果是否合理