数据演变信息(evolution)的可视化,是为了观察同一特征变量在不同时间的值。
用SVM(支持向量机)处理分类问题
支持向量机(SVM)是一系列可用于分类、回归和异常值检测的有监督学习方法。本文讨论 SVM 在分类问题上的应用。
数据分布信息的可视化
数据可视化,是为了展示数据的内在特征,或者数据之间的关系。通常,数据探索最先的步骤就是观察特征数据的分布情况(distribution)。
对于连续变量,可以:
- 直接绘制1维散点图
- 绘制箱线图/提琴图,观察总体情况
- 观察直方图/密度曲线
对于分类变量,可以观察用条形/柱状图观察每个类别出现的次数/频度。
逻辑回归
逻辑回归(logistic regression),虽然本质上属于广义线性回归,
但是因变量Y是离散值,一般用来解决分类问题。
与其他分类方法相比,逻辑回归对于每一个输出的对象都有一个对应类别的概率。
逻辑回归算法本质上是回归,即是通过一系列特征数据回归出某种情况出现的概率。
在此基础上再引入了逻辑函数,就可以用来分类。
线性回归
从机器学习的角度,线性回归是回归问题中最简单的模型。回归问题属于监督式机器学习。
分类问题与神经网络
分类问题是机器学习中的一种常见问题。
在机器学习领域,有很多分类算法。而神经网络的优势在于:几乎可以实现任意复杂的分类边界,无误差地实现训练集上的分类^3。
由于神经网络的拟合能力很强大,常常容易产生过拟合,所以需要进行相应的处理。
而且,神经网络的可解释性往往是个非常大的难题。
用神经网络识别手写数字
本文主要参考74行代码实现手写数字识别,
但是没有采用Michael Nielsen的neural-networks-and-deep-learning代码,而是直接使用scikit-learn的MLPClassifier(Multi-layer Perceptron Classifier, 多层感知机分类器)。
数据来自著名的MNIST数据集。
交易系统中的订单(Order)
思考设计量化交易系统的订单(Order)时,要考虑的因素。并给出一个概念模型。
使用docker搭建写作环境
众所周知,在windows下面使用有些工具等于自虐,比如python, nodejs, pandoc …
所以,在windows下面,使用markdown写文档变成了一种非常不好的体验。
偏偏有时候又不得不使用windows。比如单位的某上网助手软件,只有windows版本。
幸好有了docker。
用gitbook制作电子书
对于熟悉markdown的人来说,用gitbook写电子书是很自然的选择。当然,sphinx也非常不错。