分布式机器学习的参数服务器

发布时间：2018-11-23 09:53:05 所属栏目：外闻来源：今日头条

导读：副标题#e# 介绍许多机器学习问题依赖大量的数据进行训练，然后进行推理。大型互联网规模的公司用tb或pb的数据进行训练，并从中创建模型。这些模型由权重组成，这些权重将优化大多数情况下的推理误差。权重/参数的数量以数十亿至数万亿的顺序排列。在这样大

副标题[/!--empirenews.page--]

介绍

许多机器学习问题依赖大量的数据进行训练，然后进行推理。大型互联网规模的公司用tb或pb的数据进行训练，并从中创建模型。这些模型由权重组成，这些权重将优化大多数情况下的推理误差。权重/参数的数量以数十亿至数万亿的顺序排列。在这样大的模型中，在一台机器上学习和推理都是不可能的。有一个可以用于分布式学习和推理的框架是很有用的。由于参数需要在多个节点之间共享，然后使用这些节点执行和完善它们的计算来更新它们，所以当涉及到共享时，这些大量数据可能成为瓶颈。共享在带宽、顺序机器学习(ML)算法的同步、机器的容错性方面代价高昂，故障率高达10%。Parameter sever(https://www.cs.cmu.edu/~muli/file/parameter_server_osdi14.pdf)提出了一种新的框架来解决这些问题，并构建了分布式机器学习算法。

分布式机器学习的参数服务器

主要设计理念

Parameter Server提出了以下设计要求：

高效通信：一种异步任务模型和API，可以减少机器学习(ML)算法的整体网络带宽
灵活的一致性模型：宽松的一致性有助于降低同步成本。它还允许开发人员在算法收敛和系统性能之间进行选择。
添加资源的弹性：允许添加更多容量而无需重新启动整个计算。
高效的容错：在高故障率和大量数据的情况下，如果机器故障不是灾难性的，可以在一秒钟左右的时间内快速恢复任务。
易用性：构造API以支持ML构造，例如稀疏向量，矩阵或张量。

分布式机器学习算法的示例

经典的监督机器学习(ML)问题包括在给定标记数据的训练集的情况下优化成本函数。在许多样本上改变和调整成本函数，以减少或最小化预测误差。为了调整模型或减少误差，计算偏导数/梯度。这些梯度有助于在正确的方向上移动权重，以最大限度地减少误差。

对于“d”维特征向量，模型尝试使用以下公式预测先前未见过的x的结果：for every i=1 to d, ∑xi * wi。为了确保模型相对较好地推广(即，它仅在训练数据上不能很好地执行)，将正则化分量添加到预测函数。所以上面提到的函数变成Σxi* wi +ƛ* Norm(w)。这里ƛ用于惩罚在训练数据上发现的权重。这削弱了学习的权重，因此避免了过度拟合，并有助于对以前看不见的数据进行泛化。本文更侧重于该框架的系统方面。

让我们看看分布式随机梯度下降如何用于求解上述预测算法。下图描绘了迭代算法并行化工作的高级过程：

分布式训练算法

该系统由一些服务器节点和工作节点组成。每个worker加载一些数据子集，不同的workers加载不同的样本。每个worker计算本地数据的梯度以优化损失函数。然后，每个worker将这些部分梯度发送到服务器节点。服务器节点聚合从许多worker是、节点接收的那些梯度。完成服务器节点后，worker节点可以从服务器节点提取新的权重集，并再次执行梯度计算。大多数时间花在计算g1，g2，...，gm梯度上。这些是使用转置(X)* w计算的。如果w的数量级为数十亿至数万亿，这种计算在任何单个节点上都是不可行的。但是，每个节点仅处理数据子集的良好副作用是，他们只需要相对应的权重,如数据。如果一个人试图预测可能是用户点击一个广告,然后“regularizers”等词语不太有趣,大多数workers不会更新权重。正如你所看到的在上面的图中,给定节点上,只有x的权重(w)的特征存在/相关的点积是必要发送给工人节点(参见x在每个工作节点和相应的列稀疏权向量w)。

在较高的层次上，算法在每个worker上看起来如下：

在每个worker上，计算数据子集的梯度(偏导数)
将此部分梯度推送到服务器
在服务器准备就绪时从服务器中提取新的权重集

在每台服务器上：

汇总所有'm'个worker的梯度，例如g =Σgi
new_weights = old_weights - learning_rate *(g +ƛ* Norm(old_weights))

架构

High level architecture

ParameterServer由服务器组组成，便于在系统中运行多种算法。服务器组中的每个服务器节点负责密钥空间/数据的分区。服务器可以相互通信以迁移/复制数据，以实现可伸缩性和可用性。服务器管理器负责维护服务器组的一致视图。它执行活动检查并为每个服务器节点分配密钥空间的所有权。

通常为应用程序分配工作组。多个workers节点构成工作组，它们与服务器组通信以提取参数和推送梯度，如上一节所述。工作组不需要相互通信。调度程序查看工作组并为其分配任务。通常，相同的工作节点通过在同一数据集上运行迭代算法来利用本地存储的数据。参数名称空间可用于在多个工作组之间进一步并行化工作。此外，可以在多个组之间共享相同的参数命名空间：典型示例是支持实时推理的一个组，而其他工作组可以支持模型的开发和共享参数的更新。

让我们看一下构建这种架构所需的一些原语

键值API

撰写本文时，现有系统使用键值对来传递共享参数。一个例子是feature-id及其权重。传统上，这是使用memcached或其他一些键值存储实现的。重要的见解是值主要是一些线性代数基元，例如向量或矩阵，并且能够优化对这些构造的操作是有用的。典型的操作是点积，矩阵乘法，L-2范数等。因此，保持键值语义和赋值作为向量，矩阵对于优化大多数常见的机器学习(ML)操作非常有用。

Range based push and pull

如前面算法中所述，从服务器节点和梯度中提取的权重被推送到服务器节点。支持基于Range的推送和拉取将优化网络带宽使用。因此，系统支持w.push(R，destination)，w.pull(R，destination)来提取数据。在这两种情况下，对应于Range R中的键的值被从目的节点推送和拉出。将R设置为单个键，提供简单的键值读写语义。由于梯度g与w具有相同的密钥，因此w.push(R，g，destination)可用于将局部梯度推送到目的地。

异步任务和依赖

（编辑：PHP编程网 - 黄冈站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

星际碰撞可产生六方金	NASA将计划周三对登月
实验室创出迄今最冷物	神经机器人系统解码帕