vor 11 Tagen

Perceiver: Allgemeine Wahrnehmung mit iterativem Attention

Andrew Jaegle, Felix Gimeno, Andrew Brock, Andrew Zisserman, Oriol Vinyals, Joao Carreira

Abstract

Biologische Systeme wahrnehmen die Welt, indem sie hochdimensionale Eingaben aus unterschiedlichen Modalitäten – wie Vision, Hören, Berührung, Propriozeption usw. – gleichzeitig verarbeiten. Die in der tiefen Lernforschung eingesetzten Wahrnehmungsmodelle hingegen sind dagegen für einzelne Modalitäten konzipiert und stützen sich häufig auf domain-spezifische Annahmen, wie beispielsweise die lokalen Gitterstrukturen, die nahezu alle bestehenden Bildverarbeitungsmodelle nutzen. Diese Vorannahmen bringen nützliche induktive Voreingenommenheiten mit sich, führen jedoch auch dazu, dass die Modelle an einzelne Modalitäten gebunden sind. In diesem Paper stellen wir den Perceiver vor – ein Modell, das auf Transformers basiert und daher nur wenige architektonische Annahmen über die Beziehung zwischen seinen Eingaben trifft, gleichzeitig aber wie ConvNets auf Hunderttausende von Eingaben skaliert. Das Modell nutzt eine asymmetrische Aufmerksamkeitsmechanik, um die Eingaben iterativ in eine kompakte latente Engstelle zu verdichten, wodurch es in der Lage ist, sehr große Eingaben zu verarbeiten. Wir zeigen, dass diese Architektur bei Klassifizierungsaufgaben über verschiedene Modalitäten hinweg – Bilder, Punktwolken, Audio, Video und Video+Audio – mit starken, spezialisierten Modellen konkurrieren oder diese sogar übertrifft. Der Perceiver erreicht eine Leistung, die mit ResNet-50 und ViT auf ImageNet vergleichbar ist, ohne 2D-Faltungen zu verwenden, indem er direkt auf 50.000 Pixeln aufmerksam wird. Zudem ist er in allen Modalitäten in AudioSet konkurrenzfähig.