回归方法,就是处理变量之间相关关系的一种数学方法
《量化投资:数据挖掘技术与实践(MatLab版)》读书笔记目录
变量之间的关系可以分为两类:
- 确定性关系(函数关系): 可以通过其他变量确定一个变量
- 相关关系: 难以用精确的方法表达。比如年龄和血压的关系
回归方法,就是处理变量之间相关关系的一种数学方法。其解决问题的步骤如下:
- 收集一组包含因变量和自变量的数据
- 选定因变量和自变量之间的模型,利用数据按照一定方法计算出模型的参数(公式系数)
- 利用统计分析方法对不同的模型进行比较,找出效果最好的模型
- 判断得到的模型是否适合这组数据
- 利用模型对因变量作出预测或解释
回归是数据挖掘最基本的方法,一般都先尝试用回归方法进行研究。
在量化投资领域,回归方法可用于研究经济走势、大盘走势、个股走势。比如,最常用的多因子模型,
就是用多元回归方法得到的。
回归的分类
根据回归方法中因变量的格式和回归函数的形式,可以将回归方法分为:
- 一元线性回归
- 一元非线性回归
- 多元线性回归
- 多元非线性回归
此外,还有两种特殊的回归方式:
- 逐步回归: 在回归过程中可以调整变量数
- Logistic回归, 以指数结构函数作为回归模型
回归效果的评价
建立回归模型,一般先绘制散点图,根据图形的样式选择回归模型,然后计算参数。
最后,对回归效果进行评价,如果有多个回归模型,还可以进行比较。
评价的指标包括:
决定系数${R}^{2}$
${R}^{2} = \frac{SSR}{SST} = 1-\frac{SSE}{SST}$
其中:
SSR: 回归平方和 (sum of squares for regression)
SST: 总平方和 (sum of squares for total)
SSE: 残差平方和 (sum of squares for error)
显然${R}^{2} \leq 1$。 决定系数越大,表示观测值与拟合值越接近,说明拟合效果越好。
剩余标准差 S
$S=\sqrt{SSE/(n-2)}$
S 越小效果越好
F检验
$F=\frac{SSR/1}{SSE/(n-2)}$
一元回归
一元线性回归满足如下形式:
$Y = { \beta }{0}+{\beta}{1} x + \varepsilon $
其中:
${\beta}{0} , {\beta}{1}$是参数
$\varepsilon$是随机误差,且其均值 E(x) =0, 方差$var(\varepsilon) = {\sigma}^{2}$
对于非线性目标函数$y = f(x)$, 回归的一般的思路是:
通过变换:
$
\begin{cases}
& u = u(x) \\
& v = v(y)
\end{cases}
$
使得$v = a + bu$, 对 v 和 u 进行线性拟合,然后再进行逆变换。
一些简单的非线性模型也可以直接拟合计算,对于这些函数,要熟悉其图形特征:
- 倒幂函数$y = a + b \frac{1}{x}$
- 幂函数$y = a {x}^{b}$
- 指数函数$y = a {e}^{bx}$
- 倒指数函数$y = a {e}^{b/x}$
- 对数函数$y = a + b ln x$
- S形曲线$y = \frac{1}{a + b {e}^{-x}}$
还有一种特殊的一元多项式回归:
$y = {\beta}{0} + {\beta}{1} x + … + {\beta}_{m} {x}^{m} + \varepsilon$
多元回归
多元回归满足$Y = f({X}{1}, {X}{2}, … , {X}_{p})$
其中 :
- Y: 因变量
-${X}{1}, {X}{2}, … , {X}_{p}$: p 个非随机变量,Y 的解释变量
进行多元回归的一般步骤为:
- 对问题进行分析,选择因变量与解释变量
- 作出因变量与各解释变量的散点图,初步设定回归模型参数的个数
- 输入因变量与自变量的观察数据,计算参数
- 分析数据异常点情况
- 进行显著性检验,如果通过,可以用模型进行预测
- 进一步研究,如残差的正态性检验、残差的异差方检验、残差的自相关性检验等
多元回归一般使用简单的多元线性回归,和多元多项式回归模型。
逐步回归
逐步回归的基本思想是有进有出。
具体做法是将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验。
当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除。
以确保每次引入新的变量之前回归方程中只包含显著性变量。
这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止。
以保证最后所得到的解释变量集是最优的。
依据上述思想,可利用逐步回归筛选并剔除引起多重共线性的变量,其具体步骤如下:
先用被解释变量对每一个所考虑的解释变量做简单回归,
然后以对被解释变量贡献最大的解释变量所对应的回归方程为基础,
再逐步引入其余解释变量。
经过逐步回归,使得最后保留在模型中的解释变量既是重要的,又没有严重多重共线性。
Logistic回归
一般来说,回归不用在分类问题上,因为回归是连续型模型,而且受噪声影响比较大。如果非要应用进入,可以使用logistic回归。
logistic回归本质上是线性回归(属于广义线性回归,generalized linear model),
但是因变量Y可以是离散值(最典型的时二元的0和1)。
逻辑回归研究某些现象发生的概率,其基本形式为:
$P(Y=1|{x}{1},{x}{2},…,{x}{k})=\frac{exp({\beta}{0}+{\beta}{1} {x}{1} + … + {\beta}{k}{x}{k})}{1+exp({\beta}{0}+{\beta}{1} {x}{1} + … + {\beta}{k}{x}_{k})}$
用 p
表示Y=1出现的概率,对上述形式进行变换,可以得到:
$ln \frac{p}{1-p}={\beta}{0}+{\beta}{1} {x}{1} + … + {\beta}{k}{x}_{k}$
由于定性研究中,p的取值经常只有0、1,上述公式失去意义,所以定义一个单调连续的概率函数$\pi$,令:
$\pi = P(Y=1 | {x}{1},{x}{2},…{x}_{k}), 0<\pi<1$
则Logistic模型变形为:
$ln\frac{\pi}{1-\pi}={\beta}{0}+{\beta}{1} {x}{1} + … + {\beta}_k}{x}{k} , 0<\pi<1$
可以用线性回归的方法进行处理。
Logistic回归模型的适用条件:
- 因变量为二分类的分类变量或某事件的发生率,并且是数值型变量。但是需要注意,重复计数现象指标不适用于Logistic回归。
- 残差和因变量都要服从二项分布。二项分布对应的是分类变量,所以不是正态分布,进而不是用最小二乘法,而是最大似然法来解决方程估计和检验问题。
- 自变量和Logistic概率是线性关系
- 各观测对象间相互独立
应用实例:多因子选股模型的实现
多因子选股是应用非常广泛的模型。
思路
采用一系列的因子作为选股标准。满足这些因子的股票则买入,不满足的卖出。
多因子选股的核心,一是因子的选取,二是通过因子进行综合判断。在判断方法上,多采用打分法或者回归法。
- 打分法:根据各个因子的大小进行打分,然后加权得到股票的总分,再根据总分筛选股票
- 回归法:用过去的股票收益率对因子进行回归,得到一个关于因子的回归方程,用该回归方程预测股票的收益率,再以此选股
过程
- 候选因子的选取
- 因子有效性检验
- 剔除有效但冗余的因子
- 建立综合评分模型
- 模型的评价和持续改进
其中,1、2、3、4都可以用回归模型进行处理
策略
略。