感知者:迭代注意的一般感知

大多数深度学习模型都是特定于模态的,必须针对每种可能的输入配置进行调整。受可同时处理多模式数据的生物系统的启发,研究人员最近提出了一种可扩展到超过10万个输入的模型。

图像信用:Pxhere,CC0公共领域

介绍了一种新的基于变压器的算法。它可以直观灵活地处理高维输入和任意输入配置。一小组潜在单元避免了二次缩放问题,这些潜在单元形成了输入必须通过的注意瓶颈。因此,容量可以引导到最相关的输入。

结果表明,该模型在图像,声音,视频或点云分类任务中可以实现与强大模型相当的性能。该方法为可以融合各级信息的一般感知架构开辟了道路。

生物系统通过同时处理来自视觉,听觉,触觉,本体感受等各种模态的高维输入来理解世界。另一方面,深度学习中使用的感知模型是针对个体模态设计的,通常依赖于特定领域的假设,例如几乎所有现有视觉模型都利用的局部网格结构。这些先验引入了有用的归纳偏差,但也将模型锁定到个体模式。在本文中,我们介绍了感知器-一种基于变压器的模型,因此很少对其输入之间的关系做出架构假设,但也可以扩展到数十万个输入,如ConvNets。该模型利用非对称注意机制将输入迭代地提取到紧密的潜在瓶颈中,使其能够扩展以处理非常大的输入。我们展示了这种体系结构具有竞争性或超越强大的专业m关于各种模式的分类任务的模型:图像,点云,音频,视频和视频+音频。感知器获得与ImageNet上的ResNet-50相当的性能,无需卷积,并直接参与50000像素。它也超过了AudioSet中所有模式的最新结果。

研究论文:Jaegle,A.,Gimeno,F.,Brock,A.,Zisserman,A.,Vinyals,O.和Carreira,J.,“Perceiver:一般感知与迭代注意”,2021年。链接:https://arxiv.org/abs/2103.03206

内容版权声明:除非注明,否则皆为网络转载文章。