HyperAIHyperAI

Command Palette

Search for a command to run...

Perceiver: Allgemeine Wahrnehmung mit iterativem Attention

Andrew Jaegle Felix Gimeno Andrew Brock Andrew Zisserman Oriol Vinyals Joao Carreira

Zusammenfassung

Biologische Systeme wahrnehmen die Welt, indem sie hochdimensionale Eingaben aus unterschiedlichen Modalitäten – wie Vision, Hören, Berührung, Propriozeption usw. – gleichzeitig verarbeiten. Die in der tiefen Lernforschung eingesetzten Wahrnehmungsmodelle hingegen sind dagegen für einzelne Modalitäten konzipiert und stützen sich häufig auf domain-spezifische Annahmen, wie beispielsweise die lokalen Gitterstrukturen, die nahezu alle bestehenden Bildverarbeitungsmodelle nutzen. Diese Vorannahmen bringen nützliche induktive Voreingenommenheiten mit sich, führen jedoch auch dazu, dass die Modelle an einzelne Modalitäten gebunden sind. In diesem Paper stellen wir den Perceiver vor – ein Modell, das auf Transformers basiert und daher nur wenige architektonische Annahmen über die Beziehung zwischen seinen Eingaben trifft, gleichzeitig aber wie ConvNets auf Hunderttausende von Eingaben skaliert. Das Modell nutzt eine asymmetrische Aufmerksamkeitsmechanik, um die Eingaben iterativ in eine kompakte latente Engstelle zu verdichten, wodurch es in der Lage ist, sehr große Eingaben zu verarbeiten. Wir zeigen, dass diese Architektur bei Klassifizierungsaufgaben über verschiedene Modalitäten hinweg – Bilder, Punktwolken, Audio, Video und Video+Audio – mit starken, spezialisierten Modellen konkurrieren oder diese sogar übertrifft. Der Perceiver erreicht eine Leistung, die mit ResNet-50 und ViT auf ImageNet vergleichbar ist, ohne 2D-Faltungen zu verwenden, indem er direkt auf 50.000 Pixeln aufmerksam wird. Zudem ist er in allen Modalitäten in AudioSet konkurrenzfähig.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Perceiver: Allgemeine Wahrnehmung mit iterativem Attention | Paper | HyperAI