2 个月前

学习什么和在哪里:无监督下解耦位置和身份跟踪

Manuel Traub; Sebastian Otte; Tobias Menge; Matthias Karlbauer; Jannik Thümmel; Martin V. Butz
学习什么和在哪里:无监督下解耦位置和身份跟踪
摘要

我们的大脑几乎可以毫不费力地将视觉数据流分解为背景和显著物体。此外,它还能预测物体的运动和相互作用,这些能力对于概念规划和推理至关重要。最近的一些物体推理数据集,如CATER,揭示了当前基于视觉的人工智能系统在目标显式表示、物体恒常性和物体推理方面存在的基本缺陷。在此,我们介绍了一种自监督的位置和身份跟踪系统(Loci),该系统在CATER跟踪挑战中表现出色。受大脑背侧和腹侧通路的启发,Loci通过分别处理“是什么”(what)和“在哪里”(where)的槽位编码来解决绑定问题。Loci的预测编码处理机制鼓励主动误差最小化,使得各个槽位倾向于编码单个物体。物体之间的相互作用和物体动态在解耦的潜在空间中进行处理。时间截断反向传播与前向资格累积相结合,显著加快了学习速度并提高了内存效率。除了在当前基准测试中表现出优异性能外,Loci还能够有效地从视频流中提取物体,并将其分离为位置和格式塔组件。我们认为这种分离提供了一种表示形式,有助于在概念层面上实现有效的规划和推理。

学习什么和在哪里:无监督下解耦位置和身份跟踪 | 最新论文 | HyperAI超神经