统计学:从数据到结论,ISBN:9787503749964,作者:吴喜之 @豆瓣
问题的提出
对于一个模型,需要调整其各个因子(factor),以使模型达到最好的效果。
每个因子的取值是离散的,称为该因子的水平(level)
需要对各个因子的不同水平进行组合实验,才能得出一组最佳的因子水平
如何设置因子的不同水平,以及如何进行组合实验,属于实验设计的范畴,实验设计模型可以说是回归模型的一种。
这里探讨的不是如何设计实验,而是如何对实验的结果进行分析
方差分析概述
方差分析(analysis of variance, ANOVA),分析各个自变量对因变量的影响的一种方法。
自变量包括:
- 因子——定性变量
- 协变量(convariate)——定量变量
分析的结果是一个方差分析表
原理:
- 因变量的值随着自变量的变化而变化
- 将因变量的变化按照自变量进行分解,每个自变量对因变量的变化有一份贡献
- 无法用已知因素解释的因变量的变化,看做随机误差的贡献
- 然后用每一个自变量的贡献与随机误差的贡献进行比较(F检验)
- 判断出自变量的不同水平/值是否对因变量的变化有显著贡献
- 最终结果:F检验的一些p-值
只考虑主效应的方差分析
对因变量的影响包括各个因素的主效应(main effect)、交互效应(interaction)和协变量
对于两个自变量(水平分别为3个和4个)的一个模型,如果只考虑主效应,其线性模型为:
其中:
- i,j分别为两个自变量的各个水平
- k为每个(i,j)组合的多个观测值的编号
- 最后一项为误差项,方差分析中假定误差项是独立的,并且符合正态分布
考虑主效应和交互效应
此时的线性模型增加了交叉项:
考虑协变量
此时的模型变成:
加上了一个自变量x,及其相关系数。