第一章,介绍统计学能解决的问题以及解决问题的思路。
统计学将现象分为个体随机性和总体的规律性,通过随机现象找到总体的规律。而规律就是变量之间的关系。
本文是 《统计学》 的读书笔记。
整个读书笔记的目录在
统计是什么
统计是人类思维的一个归纳过程:
- 从现实世界中收集数据
- 分析收集到的数据
- 从分析结果得出结论
关于统计的一个例子如下:
- 站在一个路口,看到每过去20辆小轿车时,也有100辆自行车通过,同时记录每辆车上的人数(收集)
- 平均每10个轿车载有12个人,每辆自行车上只有1人(分析)
- 所以,小汽车和自行车在这个路口的运载能力为24:100(结论)
统计学是什么
统计学(statistics),是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。
主要内容包括:
- 如何有效的收集数据
- 如果数据和指标的关系缺乏模型,如何用统计方法建立模型
- 如何评价数据的有效性
- 如何得出结论
- 如何利用数据和模型进行预测
- 如何用图形化的方式表现统计结论
其中,统计模型是从数据产生的,会根据新的数据不断改进,最终会被新的模型(可能不是统计模型)所代替。
统计学的一些特点:
- 统计学的思维方式是归纳为主,而不是演绎为主
- 统计学是应用学科,是为具体目标服务的,不形成自己的数学体系
- 统计学可以应用到大量的学科
- 有些学科已经形成了与统计学结合的分支学科,如经济计量学(econometrics),数据挖掘(Data Mining)等。
由于统计学的应用性和交叉性,统计学需要一些其他学科的基础,包括:
- 各种可能用到的数学
- 计算机
- 其他领域的知识
下面列举一些可以用统计学解决的问题:
- 当你买了一台电视时,被告知三年内可以免费保修。你想过厂家凭什么这样说吗?说多了,厂家会损失;说少了,会失去竞争,也是损失。到底这个保修期是怎样决定的呢?
- 大学排名是一个非常敏感的问题。不同的机构得出不同的结果;各自都说自己是客观、公正和有道理的。到底如何理解这些不同的结果呢?
- 任何公司都有一个信用问题。当然,在这些公司试图得到贷款时并没有不还贷的不良记录。如何根据它们的财务和商业资料来判断一个公司的信用等级呢?
- 我国东部和西部的概念是一个比较笼统的概念。如何能够根据需要,选择一些指标来把各省,或各市县甚至村进行分类呢?
- 疾病传播时,如何能够通过感染者入院前后的各种因素得到一个疾病传染方式的模型呢?
- 如何通过大众调查来得到性别、年龄、职业、收入等各种因素与公众对某项事物(比如商品或政策)的态度的关系呢?
- 一个从来没有研究过红楼梦的统计学家如何根据比较写作习惯得出红楼梦从哪一段开始就不是曹雪芹的手笔了呢?
- 如何才能够客观地得到某个电视节目的收视率,以确定广告的价格是否合理呢?
- 如何确定观众/听众是否忠实于某节目?
- 如何对电视节目排名次?
- 什么因素影响一个节目的收视率?
- 如何按照各种不同环境估计某商店的顾客人数?
- 如何按照各种指标评价雇员?
- 如何把地区(市县镇等)按照各种指标分类?
- 如何确定红楼梦第几回不是曹雪芹所写?
- 如何确定一个产品的可靠性?
- 如何进行偏差较少的民意调查?
- 如何根据一些财务数据发现漏税的嫌疑单位?
随机性和规律性,概率和机会
自然科学的很多领域有确定性,但其他的领域存在着随机性(randomness),比如吸烟与寿命的关系。
随机性与很多不易说清的因素有关。
对于一些现象,虽然个体存在随机性,但是总体却可能存在规律性——统计规律。
这种总体性的规律体现为概率(probability),描述某件事情发生的机会有多大。
有些概率是精确的,比如掷骰子时每个点数出现的概率都是1/6。
有些概率无法精确推断,比如你周末去公园的概率是8成。
从随机性的个体现象推导出规律性的统计结论,就是统计学存在的意义。
统计结果/统计结论是否有效?
统计学可以从个体现象(数据)得到结论。但是结论是否有效?
依靠统计学的部门很有可能闹笑话,比如xx局和xx局。那么,该如何评价统计的结果或者结论?
这里面需要注意几点:
- 数据可以有误或作假
- 统计方法(有意或无意)使用不当可以误导。有低级误导和高级误导。
- 常识判断和直觉是重要的
下面是一些统计结论,可以思考一些如何理解这些结论的含义:
- “明天降水概率为40%”
- “我冬天去新加坡度假的概率为10%”
- “该节目收视率是30%”
- “调查结果表明20%的观众喜欢某节目”
- “抽样调查结果的误差为±3%”
- “支持率的95%置信区间为(25%,30%)”
- “某学校排名第一”
- “某县是贫困县”
- “某国的综合竞争力排名第43位”
- “该国家属于发展中国家”
- “该药品疗效99%”
- “该国贫富差距大”
- “这个县收入比那个县高”
- “该结果统计显著”
- “消费价格指数为120%”
- “他的血压已经正常了”
统计学描述问题的方法:常量,变量和数据
统计学将研究的对象分为总体,样本和个体。
总体,样本和个体都有其属性。
对于确定的属性,称为常量(constant);对于不确定性的属性,称为变量(variable)。
比如:
- 一节火车车厢有多少坐位是一个常量;车厢中旅客的人数是一个变量
- 一个学校的在校男女生比例是一个常量;该校任意一群学生的男女生比例是一个变量
变量根据是否为数值类型可以区分为定量变量(数据变量,随机变量)和定性变量(属性变量,分类变量)
定量变量的值是数值类型,比如身高身高体重,购买某商品的人数等等。由于定量变量的值是随机的,所以又称为随机变量。
定性变量的值是非数值类型,比如性别,观点等。定性变量描述对象的属性,用于表达对象的类别,也叫做属性变量或分类变量。
为了便于用模型描述定性变量,通常将定性变量抽象为离散的值。类似于枚举类型。
数据:就是关于变量的每个实例的实际值/观测值。
通常能获得一部分数据,是对于真实情况的不完全的观测。
统计学的方法可以根据这些不完全的观测推断出全体的规律性。比如掷骰子的实验:
- 常量:骰子有6个面
- 分类变量:奇数,偶数
- 数据:掷1000次骰子的实际点数
- 分析:奇数次数493,偶数次数507
- 结论:???
变量之间的关系
通常,单个的变量没有意义,人们更加关心变量之间的关系。比如,职业种类与收入是否有关系?政府投入与经济增长是否有关系?
除了上述二元关系,还有复杂的多变量关系,如企业的固定资产、流动资产、预算分配、管理模式、生产率、债务和利润。
如同本文开始所说,有些关系可以明确确定,有些关系只能依靠统计学作出推断。
定量变量间的关系
比如,一组广告投入和销售额之间的数据,做成二维点图(散点图):
通常对于变量之间的关系会研究以下问题:
- 这两个变量是否有关系?(相关性)
- 如果有,它们的关系是否显著?
- 这些关系是什么关系,能否用数学模型来描述?
- 这个关系是否带有普遍性?(是否只对此样本有效?——需要收集更多数据)
- 这个关系是不是因果关系?(需要排除其他因素的影响才能判断)
因果关系是对变量关系的深入分析
不是因果关系也可以用来作为推断的依据
比如,中西医对疾病的因果关系的理解不同
但是从统计结果上来看,中西医都具有疗效
按照变量类型的不同,变量之间的关系可以分为:
- 定量变量间的关系
- 定性变量间的关系
- 定性定量变量间的混合关系
常用的统计软件
统计学涉及到大量数据的计算,离不开统计软件的支持(在应用计算机之前,主要通过查表的方式得到计算结果)。常用的统计软件如下:
R
这是一个免费的,由志愿者管理的软件。其编程语言与S-plus所基于的S语言一样,很方便。还有不断加入的各个方向统计学家编写的统计软件包。同时从网上可以不断更新和增加有关的软件包和程序。这是发展最快的软件,受到世界上统计师生的欢迎。是用户量增加最快的统计软件。对于一般非统计工作者来说,主要问题是它没有“傻瓜化”。S-plus
这是统计学家喜爱的软件。不仅由于其功能齐全,而且由于其强大的编程功能,使得研究人员可以编制自己的程序来实现自己的理论和方法。它也在进行“傻瓜化”以争取顾客。但仍然以编程方便为顾客所青睐。SPSS
这是一个很受欢迎的统计软件;它容易操作,输出漂亮,功能齐全,价格合理。对于非统计工作者是很好的选择。Excel
严格说来并不是统计软件,但作为数据表格软件,必然有一定统计计算功能。而且凡是有Microsoft Office的计算机,基本上都装有Excel。但要注意,有时在装Office时没有装数据分析的功能,那就必须装了才行。当然,画图功能是都具备的。对于简单分析,Excel还算方便,但随着问题的深入,Excel就不那么“傻瓜”,需要使用函数,甚至根本没有相应的方法了。多数专门一些的统计推断问题还需要其他专门的统计软件来处理。SAS
这是功能非常齐全的软件;尽管价格不菲,许多公司还是因为其功能众多和某些美国政府机构认可而使用。尽管现在已经尽量“傻瓜化”,仍然需要一定的训练才可以进入。对于基本统计课程则不那么方便。Minitab
这个软件是很方便的功能强大而又齐全的软件,也已经“傻瓜化”,在我国用的不如SPSS与SAS那么普遍。Statistica
也是功能强大而齐全的“傻瓜化”的软件,在我国用的也不如SAS与SPSS那么普遍。Eviews
这是一个主要处理回归和时间序列的软件。GAUSS
这是一个很好用的统计软件,许多搞经济的喜欢它。主要也是编程功能强大。目前在我国使用的人不多。FORTRAN
这是应用于各个领域的历史很长的非常优秀的编程软件,功能强大,也有一定的统计软件包。计算速度比这里介绍的都快得多。但需要编程和编译。操作不那么容易。MATLAB
这也是应用于各个领域的以编程为主的软件,在工程上应用广泛。编程类似于S和R。但是统计方法不多。