0%

《量化投资:数据挖掘技术与实践(MatLab版)》读书笔记第4章:数据的探索

数据探索(Data Exploratory)的方法,包括计算衍生、统计分析、可视化、样本选择和数据降维等。

《量化投资:数据挖掘技术与实践(MatLab版)》读书笔记目录

数据探索(Data Exploratory),是指在尽量少的先验假定下,通过作图、制表、方程拟合、计算特征量等手段,
探索数据的结构和规律。

衍生变量

通过对已有变量的各种形式的衍生,可以得到更多可用的变量,能够更直观反映事物的某些特征。

有一类特殊的衍生变量,称为评价型衍生变量,用于机器学习中训练样本的标记。

定义衍生变量的原则:

  • 客观反映事物的特征
  • 与业务目标有联系

常用的衍生变量构建方法包括:

  • 对多个变量进行组合计算
  • 按照维度分类汇总
  • 基于某个变量进行细分(比如日期类型可以细分为年度,季度,工作日等)
  • 提取时间序列特征,比如一段时间的总值、增量、增长率等

在量化投资领域,各种技术指标,如 MACD、RSI、KDJ、DMI、OBV(能量潮)、心理线、乖离率、EXPMA、TRIX、ASI等等,
都是原始的行情数据(datetime, open, high,low,close,volume等)的衍生变量。

数据的统计

数据探索中的统计是为了了解数据的基本特征。

统计的任务是从样本推断总体。具体到数据探索,是要推断出总体的数据特征。

数据探索中的统计,主要由描述性统计和分布性统计:

  • 表示位置: 平均值、中位数
  • 表示离散度:标准差std、方差var、极差range(最大值-最小值)
  • 表示分布形状: 偏度(度量分布的对称性)、峰度(度量数据偏离均值的程度)
  • 表示分布: 分布函数(概率密度函数)、分位数

数据可视化

可视化可以直观表达数据的特征。从数据挖掘的角度,最常用的可视化角度是数据的
分布形态、中心分布、关联等。

常用的图包括:

  • 散点图(plot): 绘制数据最原始的形态,了解大致的分布中心、边界、集中度等
  • 直方图(hist): 表达分布特征。过于集中的数据没有意义
  • 相互关联图(): 表达各个变量之间的相关趋向
  • 相关强度图(): 表达变量间的相关强度,常用于变量的筛选
  • 箱体图(boxplot): 可以看出数据的分布特征和异常值(离群点)

样本选择

从样本数据中选择一部分进行数据挖掘,不但能够提高效率,也有可能更有效的找到规律。

样本要能够反映总体的特征,选择时要注意两个方面:

  • 样本的数量
  • 样本的平衡性

选取样本(抽样)的方法主要有:

  • 随机取样法
  • 顺序取样法
  • 监督取样法

数据降维

数据中的多个变量可能存在着一定的相关性。用少数几个能够代表原始数据绝大多数信息且互不相关的变量
代替原始数据中的多个变量的方法,称为数据降维。

主成分分析法(PCA)

数据降维主要使用PCA方法。
PCA的主要思想是用原始变量的线性组合作为新的变量,形成一组不相干的变量以代替原来的变量。

确定线性组合的原则是要尽量多的反映原变量的信息。信息量用方差(Var)度量。
比如,先确定一个变量 F1,使得 Var(F1)最大;
如果 F1的信息还不够多,再构建一个与 F1不相关的 F2,即 Cov(F1,F2)=0;
以此类推,直到能够反映样本足够多的信息为止。

相关系数降维

两组变量可以计算出相关系数r, -1<r<1

当|r|在 0.7–1 之间时,称为高度相关, 0.4–0.7称为中等相关, 0.2–0.4称为低相关,
0.2以下认为不相关。

相关系数方法不完全准确,还要结合业务知识进行判断。

《量化投资:数据挖掘技术与实践(MatLab版)》读书笔记目录