0%

《统计学》读书笔记(9/17:方差分析)

统计学:从数据到结论,ISBN:9787503749964,作者:吴喜之 @豆瓣

问题的提出

对于一个模型,需要调整其各个因子(factor),以使模型达到最好的效果。

每个因子的取值是离散的,称为该因子的水平(level)

需要对各个因子的不同水平进行组合实验,才能得出一组最佳的因子水平

如何设置因子的不同水平,以及如何进行组合实验,属于实验设计的范畴,实验设计模型可以说是回归模型的一种。

这里探讨的不是如何设计实验,而是如何对实验的结果进行分析

方差分析概述

方差分析(analysis of variance, ANOVA),分析各个自变量对因变量的影响的一种方法。

自变量包括:

  • 因子——定性变量
  • 协变量(convariate)——定量变量

分析的结果是一个方差分析表

原理:

  • 因变量的值随着自变量的变化而变化
  • 将因变量的变化按照自变量进行分解,每个自变量对因变量的变化有一份贡献
  • 无法用已知因素解释的因变量的变化,看做随机误差的贡献
  • 然后用每一个自变量的贡献与随机误差的贡献进行比较(F检验)
  • 判断出自变量的不同水平/值是否对因变量的变化有显著贡献
  • 最终结果:F检验的一些p-值

只考虑主效应的方差分析

对因变量的影响包括各个因素的主效应(main effect)、交互效应(interaction)和协变量

对于两个自变量(水平分别为3个和4个)的一个模型,如果只考虑主效应,其线性模型为:

其中:

  • i,j分别为两个自变量的各个水平
  • k为每个(i,j)组合的多个观测值的编号
  • 最后一项为误差项,方差分析中假定误差项是独立的,并且符合正态分布

考虑主效应和交互效应

此时的线性模型增加了交叉项:

考虑协变量

此时的模型变成:

加上了一个自变量x,及其相关系数。