Multi-Manifold-Attention für Vision Transformers

Vision Transformers sind derzeit aufgrund ihrer state-of-the-art Leistung in mehreren Aufgaben des Computersehens, wie beispielsweise der Bildklassifikation und der Aktionserkennung, äußerst beliebt. Obwohl ihre Leistung durch hochinformative Patch-Embeddings und hierarchische Strukturen erheblich verbessert wurde, gibt es weiterhin nur begrenzte Forschung darüber, wie zusätzliche Datendarstellungen genutzt werden können, um die Self-Attention-Map eines Transformers zu verfeinern. Um dieses Problem anzugehen, wird in dieser Arbeit ein neuartiges Aufmerksamkeitsmechanismus vorgeschlagen, der als multi-manifold multihead attention bezeichnet wird und die herkömmliche Self-Attention eines Transformers ersetzt. Der vorgeschlagene Mechanismus modelliert den Eingaberaum in drei unterschiedlichen Mannigfaltigkeiten: euklidisch, symmetrisch positiv definit und Grassmann. Dadurch werden verschiedene statistische und geometrische Eigenschaften der Eingabedaten für die Berechnung einer hochinformellen Aufmerksamkeitskarte genutzt. Auf diese Weise kann der vorgeschlagene Aufmerksamkeitsmechanismus einen Vision Transformer dazu führen, stärker auf wichtige visuelle Merkmale wie Erscheinungsbild, Farbe und Textur eines Bildes zu achten, was zu verbesserten Ergebnissen bei Klassifikation und Segmentierung führt, wie die experimentellen Ergebnisse auf bekannten Datensätzen belegen.