何恺明MAE大火后，想梳理下视觉Transformer？这篇整理了100多个

发布时间：2021-11-27 19:10:38 所属栏目：传媒来源：互联网

导读：这段时间，计算机视觉圈有点热闹。先是何恺明等人用简单的掩蔽自编码器（MAE）证明了 Transformer 扩展到 CV 大模型的光明前景；紧接着，字节跳动又推出了部分指标超过 MAE 的新方法iBOT，将十几项视觉任务的 SOTA 又往前推了一步。这些进展给该领域的研究

这段时间，计算机视觉圈有点热闹。先是何恺明等人用简单的掩蔽自编码器（MAE）证明了 Transformer 扩展到 CV 大模型的光明前景；紧接着，字节跳动又推出了部分指标超过 MAE 的新方法——iBOT，将十几项视觉任务的 SOTA 又往前推了一步。这些进展给该领域的研究者带来了很大的鼓舞。

在这样一个节点，我们有必要梳理一下 CV 领域 Transformer 模型的现有进展，挖掘其中有价值的经验。

因此，我们找到了中国科学院计算技术研究所等机构刚刚发布的一篇综述论文。在这篇论文中，Yang Liu 等几位研究者全面回顾了用于三个基本 CV 任务（分类、检测和分割）的 100 多个视觉 Transfomer，并讨论了有关视觉 Transformer 的一些关键问题以及有潜力的研究方向，是一份研究视觉 Transformer 的详尽资料。
何恺明MAE大火后，想梳理下视觉Transformer？这篇整理了100多个

（编辑：PHP编程网 - 黄冈站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!