统计学:从数据到结论,ISBN:9787503749964,作者:吴喜之 @豆瓣
@豆瓣
概率:0–1之间的一个数目,表示事情发生的可能性/经常性。
得到概率的几种途径
利用等可能事件
在机会均等的情况下,概率 = 要计算概率的情况的组合数 / 全部可能情况的组合数
根据长期相对频率
如果出现的机会不等,而且未知,可以用观测数据估计概率, 此时 概率 = 观测到的发生次数k / 重复实验的次数n
只适用于可以重复实验的情况
主观概率
不可计算、不可实验的、主要取决于主观因素的一次性事件,其发生的概率称为主观概率。
概率的运算
事件相当于集合
概率的运算可以从集合运算的角度考虑
互补事件的概率
互补事件/互余事件/对立事件:相当于补集的概念。互补事件的概率之和为1
优势/赔率:两个互补事件概率的比值
概率的加法
两个不可能发生的事件,发生其中之一的概率,等于两个事件概率之和,相当于并集的概念
概率的乘法
两个事件同时发生的概率,等于两个事件概率之积,相当于交集的概念
仅当两个事件独立时才成立。如果不独立,需要引入条件概率
概率的分布
概率-变量值 的函数称为概率分布。可以用图或公式表示。
概率分布与总体/样本空间相关
离散随机变量的分布
对于变量的每一个离散的值,对应着一个概率。全部概率的和为1
这样的关系称为该离散随机变量的概率分布
二项分布
最简单的离散分布,变量只能有两个值(如硬币的正反面),两个事件互补
TODO: 更详细的说明
多项分布
二项分布的扩展
泊松(Poisson)分布
衡量某种事件在一定期间内出现的次数的概率
超几何分布
研究有限总体的不放回抽样(检查样品后不放回,避免重复检查)
比如抽取样品进行质检
TODO: 公式和理解
连续随机变量的分布
与离散变量的分布相对
表现为概率密度函数。所有区间概率的积分为1
正态分布/高斯分布
一个对称的钟形曲线,最高点对应均值
TODO: 更多的变量和参数
x^2-分布/卡方分布
n个独立标准正态变量的平方和,称为有n个自由度的x^2-分布
t-分布/学生分布
正态分布的变换
TODO:图形
F-分布
两个独立x^2-分布变量的比,称为F-分布变量
F-分布有两个自由度
TODO: 图形
均匀分布/矩形分布
最简单的连续型分布,取值范围是一个区间。形状是一个矩形
累积分布函数
为了便于计算某个区间的概率,对概率函数进行积分后得到的函数
抽样分布、中心极限定理
抽样分布:样本的统计量(均值、中位数、标准差等)随着样本的不同也是随机的,其分布称为抽样分布
抽样分布的特征可以帮助判断抽样是否合理
用小概率事件进行判断
如果对某种(统计)结论进行验证,可以抽取一定的样本进行检验,并得出一个概率。
如果该结果与事先的结论不符,可以根据事先结论计算得到实验结果的概率。
如果得到实验结果的概率非常低,可以认为结论不正确。