数据探索(Data Exploratory)的方法,包括计算衍生、统计分析、可视化、样本选择和数据降维等。
《量化投资:数据挖掘技术与实践(MatLab版)》读书笔记目录
数据探索(Data Exploratory),是指在尽量少的先验假定下,通过作图、制表、方程拟合、计算特征量等手段,
探索数据的结构和规律。
衍生变量
通过对已有变量的各种形式的衍生,可以得到更多可用的变量,能够更直观反映事物的某些特征。
有一类特殊的衍生变量,称为评价型衍生变量,用于机器学习中训练样本的标记。
定义衍生变量的原则:
- 客观反映事物的特征
- 与业务目标有联系
常用的衍生变量构建方法包括:
- 对多个变量进行组合计算
- 按照维度分类汇总
- 基于某个变量进行细分(比如日期类型可以细分为年度,季度,工作日等)
- 提取时间序列特征,比如一段时间的总值、增量、增长率等
在量化投资领域,各种技术指标,如 MACD、RSI、KDJ、DMI、OBV(能量潮)、心理线、乖离率、EXPMA、TRIX、ASI等等,
都是原始的行情数据(datetime, open, high,low,close,volume等)的衍生变量。
数据的统计
数据探索中的统计是为了了解数据的基本特征。
统计的任务是从样本推断总体。具体到数据探索,是要推断出总体的数据特征。
数据探索中的统计,主要由描述性统计和分布性统计:
- 表示位置: 平均值、中位数
- 表示离散度:标准差std、方差var、极差range(最大值-最小值)
- 表示分布形状: 偏度(度量分布的对称性)、峰度(度量数据偏离均值的程度)
- 表示分布: 分布函数(概率密度函数)、分位数
数据可视化
可视化可以直观表达数据的特征。从数据挖掘的角度,最常用的可视化角度是数据的
分布形态、中心分布、关联等。
常用的图包括:
- 散点图(plot): 绘制数据最原始的形态,了解大致的分布中心、边界、集中度等
- 直方图(hist): 表达分布特征。过于集中的数据没有意义
- 相互关联图(): 表达各个变量之间的相关趋向
- 相关强度图(): 表达变量间的相关强度,常用于变量的筛选
- 箱体图(boxplot): 可以看出数据的分布特征和异常值(离群点)
样本选择
从样本数据中选择一部分进行数据挖掘,不但能够提高效率,也有可能更有效的找到规律。
样本要能够反映总体的特征,选择时要注意两个方面:
- 样本的数量
- 样本的平衡性
选取样本(抽样)的方法主要有:
- 随机取样法
- 顺序取样法
- 监督取样法
数据降维
数据中的多个变量可能存在着一定的相关性。用少数几个能够代表原始数据绝大多数信息且互不相关的变量
代替原始数据中的多个变量的方法,称为数据降维。
主成分分析法(PCA)
数据降维主要使用PCA方法。
PCA的主要思想是用原始变量的线性组合作为新的变量,形成一组不相干的变量以代替原来的变量。
确定线性组合的原则是要尽量多的反映原变量的信息。信息量用方差(Var)度量。
比如,先确定一个变量 F1,使得 Var(F1)最大;
如果 F1的信息还不够多,再构建一个与 F1不相关的 F2,即 Cov(F1,F2)=0;
以此类推,直到能够反映样本足够多的信息为止。
相关系数降维
两组变量可以计算出相关系数r, -1<r<1
当|r|在 0.7–1 之间时,称为高度相关, 0.4–0.7称为中等相关, 0.2–0.4称为低相关,
0.2以下认为不相关。
相关系数方法不完全准确,还要结合业务知识进行判断。