HyperAIHyperAI

Command Palette

Search for a command to run...

Multi-Manifold-Attention für Vision Transformers

Dimitrios Konstantinidis Ilias Papastratis Kosmas Dimitropoulos Petros Daras

Zusammenfassung

Vision Transformers sind derzeit aufgrund ihrer state-of-the-art Leistung in mehreren Aufgaben des Computersehens, wie beispielsweise der Bildklassifikation und der Aktionserkennung, äußerst beliebt. Obwohl ihre Leistung durch hochinformative Patch-Embeddings und hierarchische Strukturen erheblich verbessert wurde, gibt es weiterhin nur begrenzte Forschung darüber, wie zusätzliche Datendarstellungen genutzt werden können, um die Self-Attention-Map eines Transformers zu verfeinern. Um dieses Problem anzugehen, wird in dieser Arbeit ein neuartiges Aufmerksamkeitsmechanismus vorgeschlagen, der als multi-manifold multihead attention bezeichnet wird und die herkömmliche Self-Attention eines Transformers ersetzt. Der vorgeschlagene Mechanismus modelliert den Eingaberaum in drei unterschiedlichen Mannigfaltigkeiten: euklidisch, symmetrisch positiv definit und Grassmann. Dadurch werden verschiedene statistische und geometrische Eigenschaften der Eingabedaten für die Berechnung einer hochinformellen Aufmerksamkeitskarte genutzt. Auf diese Weise kann der vorgeschlagene Aufmerksamkeitsmechanismus einen Vision Transformer dazu führen, stärker auf wichtige visuelle Merkmale wie Erscheinungsbild, Farbe und Textur eines Bildes zu achten, was zu verbesserten Ergebnissen bei Klassifikation und Segmentierung führt, wie die experimentellen Ergebnisse auf bekannten Datensätzen belegen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Multi-Manifold-Attention für Vision Transformers | Paper | HyperAI