0%

《量化投资:数据挖掘技术与实践(MatLab版)》读书笔记第1章:绪论

与定性投资相比,量化投资有很多优点。量化投资的核心是量化模型,而产生量化模型的主要方法是数据挖掘。在宏观经济分析、股价、选股、择时、交易执行的各个环节,都可以应用量化模型和方法。

《量化投资:数据挖掘技术与实践(MatLab版)》读书笔记目录

什么是量化投资

量化投资: 利用数学、统计学、信息学等领域的技术,对投资对象进行量化分析和优化,从而进行精确投资的行为。

量化投资的关键:对宏观数据、市场行为、企业财务数据、交易数据等进行分析,
利用数据挖掘技术、统计技术和优化技术等科学技术方法对数据进行处理,
以得到最优的投资组合和投资机会。

定量投资和传统的定性投资本质是相同的:

  • 都是基于弱有效市场利率
  • 都是通过分析研究,简历战胜市场、产生超额收益的组合

不同点在于量化投资将主管判断转化为“科学行为”。

量化投资的特点在于:

  • 纪律性
  • 系统性:体现在三个方面
    • 多层次,包括大类资产配置、行业选择、个股选择三个层次上都有模型
    • 多角度,包括宏观周期、市场结构、估值、成长、盈利质量、分析师盈利预测、市场情绪等
    • 多数据:对海量数据进行处理
  • 套利思想:定性投资倾向于找到伟大的企业,定量投资关注找到价值洼地
  • 概率取胜
    • 通过历史数据挖掘规律
    • 靠投资组合取胜,而不是单个标的(靠胜率,而不是单次盈利?)

量化投资的核心是量化模型

通过搜集分析大量数据,判断买卖时机。并将投资思想通过指标、参数体现在模型中。
可以说,量化模型就是量化投资的精华。

比如两个典型的量化模型:

  • 多因子选股模型

    基本原理:用一系列的因子作为选股标准:满足这些因子的买入、不满足的卖出。

    关键点:

    1. 因子的选取:找到与收益率最相关的因子
    2. 使用因子得出判断。两种判断方法:
      a. 打分法: 根据因子进行打分,按照权重得出总分,根据总分筛选股票
      b. 回归法: 用过去的股票收益率对多因子进行回归,得到回归方程,然后用回归方程预测股票的未来收益
  • SVM择时模型

    择时比选股更难。

    SVM(支持向量机)模型可以基于数据挖掘发现合适的交易时机。

    SVM的基本原理是:找到一个最优分类超平面,使得训练样本中的两类样本点尽量被无错误分开,
    并使两类的分类间隔最大。

    SVM是一种基于统计学习原理的模式识别方法,能非常成功的处理分类、判别分析等问题,并可推广到预测与综合评价领域。

    SVM在很多领域(如文本和手写识别)取得了成功。在量化交易中,可以用于预测涨跌。此时输入数据一般有四类:

    • 市场前期走势
    • 货币环境
    • 经济指标
    • 外围环境

量化模型的主要产生方法:数据挖掘

建立量化模型的一般步骤:

  1. 建立市场信息统计分析的基础,从大量的数据中通过数据挖掘找到赚钱股票的内部联系、进入点和退出点的基本特征。
    其中,有些规律通过简单的统计分析就可以发现,有些规律需要用到数理统计(如聚类分析)、最大信息熵、人工智能等复杂方法。

  2. 回溯测试。使用历史数据进行验证,覆盖的数据至少要包含牛市和熊市时期。然后分析模型的效果(如回报率、成功率、最大回撤等)。

  3. 如果回测结果满足要求,进行实盘模拟。至少三个月,然后进行修正。

  4. 实盘测试。要仔细监控。如果某一阶段连续三次交易失败,要停止操作,重新观察。

在建立量化模型的整个过程中,需要处理大量的数据,用到各种数据挖掘技术,比如关联规则、SVM、决策树、神经网络等。

数据挖掘,是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取有用的信息和知识。

数据挖掘需要的相关学科知识包括:

  • 数据库
  • 统计学
  • 应用数学
  • 可视化
  • 机器学习
  • 信息科学
  • 程序开发
  • 其他学科

数据挖掘在量化投资中的应用

目前量化投资领域,数据挖掘技术主要应用在以下几个方面

  • 宏观经济分析

    一般来说,宏观经济的周期决定了股市的周期。经济周期包括衰退、危机、复苏和繁荣四个阶段。
    量化分析宏观经济可以分析以下几个指标对股市及个股的影响:

    • GDP
    • 货币供应量
    • 利率
    • 汇率

    在宏观经济分析方面,经常用到回归、关联分析、分类、预测等方法。

  • 估价

    上市公司的财务报告在披露前后,会迅速在股价中得以体现。
    因此,重要的是预见未来,选择质地优良且未来具有较高盈利增长能力的公司。

    通过上市公司的价值评估进行股票的选择,是现在主流的基本面分析方法。当价格高于价值时卖出,当价格低于价值时买入。

    数据挖掘在估值方面的应用,就是挖掘被低估的股票。比如,用最近邻方法,确定基本面相似的股票的市场估价。

  • 量化选股

    在量化投资领域,量化选股是研究和应用最多的课题。可以说,选股是量化投资最重要的内容。

    比如,前面提到的多因子选股,是用数据挖掘中的回归方法的应用。

    具体来说,可以用挖掘的结果为策略提供决策依据,也可以根据策略进行挖掘。

    比如用聚类方法对股票进行聚类分池,再从上涨概率较大的池子中选择股票。

    再比如用神经网络方法预测股价的涨跌概率。

  • 量化择时

    好的量化选股策略比较容易实现,
    因为在长时间跨度中跑赢市场的投资组合一般会满足某些特性,比如低估值、高成长、小市值、隐形资产低估等。

    但择时比较难。一方面,量化无法处理政策面的消息;
    另一方面,量化择时的时域性很强,不能预测太短(如一天)或太长(如一年)的情况。

    通常,量化择时的应用是通过数据挖掘发现最佳的买卖点。
    比如用SVM或神经网络预测近期涨跌趋势,或者用分类方法判断近期的最佳交易周期。

  • 算法交易

    算法交易(Algorithmic Trading),输入指定交易量的买入或卖出目标,产生具体的交易指令。
    主要用于将大额委托化整为零,减少对市场的冲击,并寻求最佳的成交执行路径,以减少交易成本。

    目前算法交易使用最多的数据挖掘方法是集成决策树。

《量化投资:数据挖掘技术与实践(MatLab版)》读书笔记目录