0%

数据可视化,是为了展示数据的内在特征,或者数据之间的关系。通常,数据探索最先的步骤就是观察特征数据的分布情况(distribution)。

对于连续变量,可以:

  • 直接绘制1维散点图
  • 绘制箱线图/提琴图,观察总体情况
  • 观察直方图/密度曲线

对于分类变量,可以观察用条形/柱状图观察每个类别出现的次数/频度。

Read more »

逻辑回归(logistic regression),虽然本质上属于广义线性回归,
但是因变量Y是离散值,一般用来解决分类问题

与其他分类方法相比,逻辑回归对于每一个输出的对象都有一个对应类别的概率。

逻辑回归算法本质上是回归,即是通过一系列特征数据回归出某种情况出现的概率。
在此基础上再引入了逻辑函数,就可以用来分类。

Read more »

分类问题是机器学习中的一种常见问题。
在机器学习领域,有很多分类算法。而神经网络的优势在于:几乎可以实现任意复杂的分类边界,无误差地实现训练集上的分类^3

由于神经网络的拟合能力很强大,常常容易产生过拟合,所以需要进行相应的处理。
而且,神经网络的可解释性往往是个非常大的难题。

Read more »

众所周知,在windows下面使用有些工具等于自虐,比如python, nodejs, pandoc …
所以,在windows下面,使用markdown写文档变成了一种非常不好的体验。

偏偏有时候又不得不使用windows。比如单位的某上网助手软件,只有windows版本。

幸好有了docker。

Read more »