CPU比GPU训练神经网络快十几倍

发布时间：2021-04-19 13:57:45 所属栏目：动态来源：互联网

导读：神经网络（DNN）是一种强大的人工智能，在某些任务上超越了人类。DNN 训练通常是一系列的矩阵乘法运算，是 GPU 理想的工作负载，速度大约是 CPU 的 3 倍。如今，整个行业都专注于改进并实现更快的矩阵乘法运算。研究人员也都在寻找专门的硬件和架构来推动矩

神经网络（DNN）是一种强大的人工智能，在某些任务上超越了人类。DNN 训练通常是一系列的矩阵乘法运算，是 GPU 理想的工作负载，速度大约是 CPU 的 3 倍。

如今，整个行业都专注于改进并实现更快的矩阵乘法运算。研究人员也都在寻找专门的硬件和架构来推动矩阵乘法，他们甚至在讨论用于特定深度学习的专用硬件 - 软件堆栈。

Shrivastava 领导的实验室在 2019 年做到了这一点，将 DNN 训练转换为可以用哈希表解决的搜索问题。他们设计的亚线性深度学习引擎（sub-linear deep learning engine, SLIDE）是专门为运行在消费级 CPU 上而设计的，Shrivastava 和英特尔的合作伙伴在 MLSys 2020 会议上就公布了该技术。他们表示，该技术可以超越基于 GPU 的训练。

在 MLSys 2021 大会上，研究者探讨了在现代 CPU 中，使用矢量化和内存优化加速器是否可以提高 SLIDE 的性能。

论文一作、莱斯大学 ML 博士生 Shabnam Daghaghi 表示：「基于哈希表的加速已经超越了 GPU。我们利用这些创新进一步推动 SLIDE，结果表明即使不专注于矩阵运算，也可以利用 CPU 的能力，并且训练 AI 模型的速度是性能最佳专用 GPU 的 4 至外，论文二作、莱斯大学计算机科学与数学本科生 Nicholas Meisburger 认为，CPU 仍然是计算领域最普遍的硬件，其对 AI 的贡献无可估量。

技术细节

在本论文中，该研究重新了解了在两个现代 Intel CPU 上的 SLIDE 系统，了解 CPU 在训练大型深度学习模型方面的真正潜力。该研究允许 SLIDE 利用现代 CPU 中的矢量化、量化和一些内存优化。与未优化的 SLIDE 相比，在相同的硬件上，该研究的优化工作带来了 2-7 倍的训练时间加速。

SLIDE 的工作流程包括：初始化、前向-反向传播和哈希表更新。下图 1 为前向-反向传播工作流程图：的 SLIDE，分别是 Cooper Laker 服务器（CPX）和 Cascade Lake 服务器（CLX），并与以下以下 5 个基准进行了对比：

1)V100 GPU上的 full-softmax tensorflow 实现；

2) CPX 上的 full-softmax tensorflow 实现；

3)CLX 上的 full-softmax tensorflow 实现；

4)CPX 上的 Naive SLIDE；

5)CLX 上的 Naive SLIDE。

其中，CPX 是英特尔第三代至强可扩展处理器，支持基于 AVX512 的 BF16 指令。CLX 版本更老，不支持 BF16 指令。

研究者在三个真实的公共数据集上评估了框架和其他基准。Amazon670K 是用于推荐系统的 Kaggle 数据集；WikiLSH-325K 数据集和 Text8 是 NLP 数据集。详细统计数据

（编辑：PHP编程网 - 黄冈站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

从历史到技术突破一文	四川诺恒信通科技有限
最新报告供应链问题依	国家工业互联网大数据