17 天前

基于学习到的物体嵌入的注意力机制实现了复杂的视觉推理

David Ding, Felix Hill, Adam Santoro, Malcolm Reynolds, Matt Botvinick
基于学习到的物体嵌入的注意力机制实现了复杂的视觉推理
摘要

神经网络在众多感知任务中取得了显著成功,但在涉及感知与高层推理相结合的任务上却常常表现不佳。对于这些更具挑战性的任务,以往通常采用针对特定任务设计的专用方法(如模块化符号组件、独立的动力学模型或语义解析器),这些方法往往能取得更优的表现。然而,这类专用方法的缺点在于其鲁棒性较差,往往需要根据具体任务进行大量调整甚至重新设计,灵活性不足。 本文提出了一种更为通用的基于神经网络的方法,用于解决动态视觉推理问题。该方法在三个不同领域均取得了当前最优的性能,且在每种情况下均超越了专门针对该任务定制的模块化方法。我们的方法依赖于可学习的以对象为中心的表征、自注意力机制以及自监督的动力学学习,这三者协同作用,共同构成了高性能的基础——缺一不可。 这一组合的成功表明,在涉及时空关系或因果推理的问题中,我们无需在灵活性与性能之间做出权衡。只要在神经网络中引入合适的软先验(soft biases)和学习目标,我们或许能够实现灵活性与高性能的兼得,真正达成“两者兼得”的理想状态。

基于学习到的物体嵌入的注意力机制实现了复杂的视觉推理 | 最新论文 | HyperAI超神经