打破机器学习中的小数据集诅咒

发布时间：2019-06-20 09:02:51 所属栏目：教程来源：大数据文摘

导读：副标题#e# 大数据文摘出品编译：栾红叶、stats熊、蒋宝尚最近深度学习技术实现方面取得的突破表明，顶级算法和复杂的结构可以将类人的能力传授给执行特定任务的机器。但我们也会发现，大量的训练数据对深度学习模型的成功起着至关重要的作用。就拿Resnet

副标题[/!--empirenews.page--]

深度学习

大数据文摘出品

编译：栾红叶、stats熊、蒋宝尚

最近深度学习技术实现方面取得的突破表明，顶级算法和复杂的结构可以将类人的能力传授给执行特定任务的机器。但我们也会发现，大量的训练数据对深度学习模型的成功起着至关重要的作用。就拿Resnet来说，这种图像分类结构在2015年的ILSVRC分类竞赛中获得了第一名，比先前的技术水平提高了约50%。

近年来ILSVRC的顶级模型表现

图1：近年来ILSVRC的顶级模型表现

Resnet不仅具有非常复杂艰深的结构，而且还有足够多的数据。不同的算法其性能可能是相同的，这个问题已经在工业界和学术界得到了很好的证实。

但需要注意的是，大数据应该是有意义的信息，而不是杂乱无章的，这样，模型才能从中学习。这也是谷歌、Facebook、亚马逊、Twitter、百度等公司在人工智能研究和产品开发领域占据主导地位的主要原因之一。

虽然与深度学习相比，传统的机器学习会需要更少的数据，但即使是大规模的数据量，也会以类似的方式影响模型性能。下图清楚地描述了传统机器学习和深度学习模型的性能如何随着数据规模的提高而提高。

数据量与模型性能的函数关系

图2：数据量与模型性能的函数关系

为什么我们需要机器学习?

弹丸运动公式

图3：弹丸运动公式

让我们用一个例子来回答这个问题。假设我们有一个速度为v，按一定角度θ投掷出去的球，我们想要算出球能抛多远。根据高中物理知识，我们知道球做一个抛物线运动，我们可以使用图中所示的公式算出距离。

上述公式可被视为任务的模型或表示，公式中涉及的各种术语可被视为重要特征，即v、θ和g(重力加速度)。在上述模型下，我们的特征很少，我们可以很好地理解它们对我们任务的影响。因此，我们能够提出一个好的数学模型。让我们考虑一下另一种情况：我们希望在2018年12月30日预测苹果公司的股价。在这个任务中，我们无法完全了解各种因素是如何影响股票价格的。

在缺乏真实模型的情况下，我们利用历史股价和标普500指数、其他股票价格、市场情绪等多种特征，利用机器学习算法来找出它们潜在的关系。这就是一个例子，即在某些情况下，人类很难掌握大量特征之间的复杂关系，但是机器可以通过大规模的数据轻松地捕捉到它。

另一个同样复杂的任务是：将电子邮件标记为垃圾邮件。作为一个人，我们可能要想许多规则和启式的方法，但它们很难编写、维护。而另一方面，机器学习算法可以很容易地获得这些关系，还可以做得更好，并且更容易维护和扩展。既然我们不需要清晰地制定这些规则，而数据可以帮助我们获得这些关系，可以说机器学习已经彻底改变了不同的领域和行业。

大数据集是怎样帮助构建更好的机器学习模型的?

在我们开始讨论大规模数据是如何提高模型性能之前，我们需要了解偏差(Bias)和方差(Variance)。

偏差：让我们来看这样一个数据集：它的因变量和自变量之间是二次方关系。然而，我们不知道他们真实的关系，只能称它们近似为线性关系。在这种情况下，我们将会发现我们的预测与实际数据之间的明显的差异。观测值和预测值之间的这种差异称为偏差。这种模型，我们会说它功能小，欠拟合。

方差：在同一个例子中，如果我们将关系近似为三次方或任何更高阶，就会出现一个高方差的情况。方差能够反映训练集与测试集的性能差异。高方差的主要问题是：模型能很好地拟合训练数据，但在训练外数据集上表现得不好。这是验证确认测试集在模型构建过程中非常重要的一个主要原因。

偏差 vs方差

图4：偏差 vs方差

我们通常希望将偏差和方差最小化。即建立一个模型，它不仅能很好地适用训练数据，而且能很好地概括测试/验证数据。实现这一点有很多方法，但使用更多数据进行训练是实现这一点的最佳途径之一。我们可以通过下图了解这一点：

大数据产生了更好的泛化

图5：大数据产生了更好的泛化

假设我们有一个类似于正弦分布的数据。图(5a)描述了多个模型在拟合数据点方面同样良好。这些模型中有很多都过拟合，并且在整个数据集上产出不是很好。当我们增加数据时，从图(5b)可以看出可以容纳数据的模型数量减少。随着我们进一步增加数据点的数量，我们成功地捕获了数据的真实分布，如图(5C)所示。这个例子帮助我们清楚地了解数据数量是如何帮助模型揭示真实关系的。接下来，我们将尝试了解一些机器学习算法的这种现象，并找出模型参数是如何受到数据大小影响的。

线性回归：在线性回归中，我们假设预测变量(特征)和因变量(目标)之间存在线性关系，关系式如下：

打破机器学习中的小数据集诅咒

其中y是因变量，x(i)是自变量。β(i)为真实系数，ϵ为模型未解释的误差。对于单变量情况，基于观测数据的预测系数如下：

打破机器学习中的小数据集诅咒

（编辑：PHP编程网 - 黄冈站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/5

尾页