HyperAIHyperAI
vor 2 Monaten

Lernen von Korrelationsstrukturen für Visionstransformer

Kim, Manjin ; Seo, Paul Hongsuck ; Schmid, Cordelia ; Cho, Minsu
Lernen von Korrelationsstrukturen für Visionstransformer
Abstract

Wir stellen ein neues Aufmerksamkeitsmechanismus vor, den wir strukturelle Selbst-Aufmerksamkeit (StructSA) nennen, der reichhaltige Korrelationsmuster nutzt, die bei den Schlüssel-Abfrage-Interaktionen der Aufmerksamkeit natürlicherweise entstehen. StructSA generiert Aufmerksamkeitskarten, indem es durch Faltung räumlich-zeitliche Strukturen der Schlüssel-Abfrage-Korrelationen erkennt und diese verwendet, um lokale Kontexte von Wertmerkmalen dynamisch zu aggregieren. Dies nutzt effektiv reichhaltige strukturelle Muster in Bildern und Videos wie Szenenlayouts, Objektbewegungen und Interobjektbeziehungen. Indem wir StructSA als Hauptbaustein verwenden, entwickeln wir den strukturellen Vision Transformer (StructViT) und evaluieren dessen Effektivität anhand von Klassifizierungsaufgaben für Bilder und Videos. Dabei erreichen wir Stand-of-the-Art-Ergebnisse auf ImageNet-1K, Kinetics-400, Something-Something V1 & V2, Diving-48 und FineGym.