统计学:从数据到结论,ISBN:9787503749964,作者:吴喜之 @豆瓣
##第2章 数据的收集
2013-05-19: 1st
获取数据
一手数据vs二手数据——自己调研的or别人公布的
观测数据 vs 试验数据——是否可控
个体、总体和样本
单个对象:个体element, individual, unit
所有要研究的个体的集合:总体(有限总体)population
被研究的个体的集合:该总体的一个样本sample
抽样方法:
简单随机抽样:每个个体有同等机会被选到样本——随机样本random sample
样本量sample size
随机样本的产生:使用随机数(random number)
方便样本:比如。。。
收集数据时的误差
样本的特征(比如男女比例)不一定和总体完全一样,这叫抽样误差(sampling error)
调查问卷不一定被回答,这叫未响应误差(nonresponse error)
回答不一定真实,这叫响应误差(response error)
- 抽样误差不可避免
- 未响应误差和响应误差应该尽量避免
抽样调查和一些常用的方法
抽样调查的设计目的是确保样本对总体的代表性,以保证后续推断的可靠性
抽样方法可以分为概率抽样方法和非概率抽样方法
概率抽样假定每个个体出现在样本中的概率是已知的,从而能够对数据进行合理的统计推断;
非概率抽样方法比较省时省力,但是推断时要慎重:依赖于抽样方案的设计和实施,
这种推断无法根据漂亮的统计理论来进行,也很难客观建立抽样误差的范围。
简单随机样本(全部随机抽样)很难实施,通常会采用局部随机抽样。下面是一些抽样方法:
概率抽样方法
系统抽样:
根据样本量确定距离n;
为每个单元编号;
随机选取一个开始点;
安装n等距抽样。
如果编号是随机的,则等价于简单随机抽样。
分层抽样
对样本进行分类;
在各类中简单随机抽样;
对结果进行汇总。
可以按照比例,也可以不安装比例,也可以加权(加权系数的和为1)
整群抽样
把总体划分成若干群cluster, 群中的个体不相似;
随机抽取几个群;
单级整群抽样:调查抽取的整个群;两级整群抽样:对随机抽取的群再进行简单随机抽样
适用于各群差异不大的情况,主要用于区域抽样。
多级抽样
多层次分群,在最后一级进行调查
每级的抽样方法可能不同,整个抽样计划可能比较复杂
非概率抽样方法
目的抽样
主观选择对象,样本的多少依赖于预先就有的知识
方便抽样
随意选取(不具有随机性),用于初期的评估或探索性研究
判断抽样
主观评判选择样本,是方便抽样的延伸
定额抽样
非概率的分层抽样。先确定分类和比例,然后对各类进行方便抽样或判断抽样
雪球抽样
对于样本稀少的情况,依赖于一个目标推荐另一个目标,偏差较大
自我选择
让个体自愿参加调查
实际的抽样方法可能是各种抽样方法的组合。考虑精确度的同时,考虑方便性、可行性、经济性
计算机中常用的数据形式:
原始数据
汇总表格(不能还原成原始数据)
小结
数据总是从一个总体中抽取出来的,是总体的一个代表,称为样本
数据是否可控分为观测数据和试验数据
数据来源可以分为一手数据和二手数据
数据科恩能够有抽样误差(不可避免),对于响应/非响应误差要尽量避免
样本的抽取有多种方法
抽取样本、收集数据是为了从样本中得到总体的信息,关系到后续分析和推断的结果是否合理