HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen von Korrelationsstrukturen für Visionstransformer

Manjin Kim Paul Hongsuck Seo Cordelia Schmid Minsu Cho

Zusammenfassung

Wir stellen ein neues Aufmerksamkeitsmechanismus vor, den wir strukturelle Selbst-Aufmerksamkeit (StructSA) nennen, der reichhaltige Korrelationsmuster nutzt, die bei den Schlüssel-Abfrage-Interaktionen der Aufmerksamkeit natürlicherweise entstehen. StructSA generiert Aufmerksamkeitskarten, indem es durch Faltung räumlich-zeitliche Strukturen der Schlüssel-Abfrage-Korrelationen erkennt und diese verwendet, um lokale Kontexte von Wertmerkmalen dynamisch zu aggregieren. Dies nutzt effektiv reichhaltige strukturelle Muster in Bildern und Videos wie Szenenlayouts, Objektbewegungen und Interobjektbeziehungen. Indem wir StructSA als Hauptbaustein verwenden, entwickeln wir den strukturellen Vision Transformer (StructViT) und evaluieren dessen Effektivität anhand von Klassifizierungsaufgaben für Bilder und Videos. Dabei erreichen wir Stand-of-the-Art-Ergebnisse auf ImageNet-1K, Kinetics-400, Something-Something V1 & V2, Diving-48 und FineGym.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp