最后一批被AI替代的人

发布时间：2021-05-04 09:46:16 所属栏目：评论来源：互联网

导读：序的***瓶颈之一，是对培训现代机器学习模型的大型标记数据集的海量需求。即使是头部的AI创业公司，最关键的一环依然是从数据标注员开始的。目前手工标记的培训集即昂贵又耗时，而数据的组装、清理和调试是机器学习模型能否成功构建的源头。近日斯坦福大学

序的***瓶颈之一，是对培训现代机器学习模型的大型标记数据集的海量需求。即使是头部的AI创业公司，最关键的一环依然是从数据标注员开始的。目前手工标记的培训集即昂贵又耗时，而数据的组装、清理和调试是机器学习模型能否成功构建的源头。

近日斯坦福大学和布朗大学合作进行了 “Snorkel Drybell:在工业规模上部署弱监管的一个案例研究 ”，该研究探索了如何将组织中现有的知识用作更嘈杂、更高级别的监管——弱监管，来快速标记大型培训数据集。在该研究采用了一个实验性的内部系统Snorkel Drybell，采用开源 Snorkel 框架来使用各种组织知识资源，如内部模型、本体、遗留规则、知识图等等，以便为全网域的机器学习模型生成训练数据。这种方法的效果可以与人为标记成千上万个数据点的效果相当，并揭示了如何在实践中创建用于现代机器学习模型的训练数据集的核心经验。

Snorkel DryBell非人为标记训练数据，而是通过编程方式编写标记功能来标记训练数据。在这个过程中，我们探索了这些标签功能如何捕获工程师的知识，如何使用现有的资源作为启发式的弱监督。例如，假设我们的目标是识别与名人相关的内容。可以利用现有的命名实体识别 (NER)模型来完成这项任务，方法是：将不包含名人的内容标记为与名人无关。

这说明了如何将现有的知识资源与简单的编程逻辑结合起来，以标记新模型的训练数据。更重要的是，这个标记函数在很多情况下会返回None——即弃权，因此只给数据的一小部分贴上了标签。我们的总目标是使用这些标签来训练一个可以推广到

的简单逻辑来启发式地标记数据。

这个用于标注训练数据的编程接口比人工标注单个数据点要快得多，也更灵活，但是生成的标签的质量明显比人工指定的标签低得多。这些标记函数生成的标签常常会重叠和不一致，因为标记函数不仅可能有未知的准确性，还可能以任意的方式关联(例如，共享一个公共数据源或启发式)。

为了解决噪声和相关的标签的问题, Snorkel DryBell使用生成建模技术来自动估计标记函数的精度和相关性（不使用任何地面实况训练标签），然后使用它来重新加权，并将输出合并到每个数据点的单个概率标签中。

在较高的层次，我们依赖于标记函数(协方差矩阵 )之间观察到的一致性和不一致性，并使用一种新的矩阵补全式方法学习标记函数的精度和相关参数，以***地解释这种观察到的输出。得到的标签可以用来训练任意的模型(例如在 TensorFlow 中)。

1.利用多样化的知识资源作为弱监督

为了研究Snorkel Drybell的有效性，我们使用了三个生产任务和相应的数据集，目的是对网页内容中的主题进行分类，识别特定产品并检测特定的实时事件。使用Snorkel DryBell，能够利用各种现有的或快速指定的信息来源，如:

（编辑：PHP编程网 - 黄冈站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!