HyperAIHyperAI

Command Palette

Search for a command to run...

Relationales Selbst-Attention: Was im Attention-Mechanismus für die Videoverstehens fehlt

Manjin Kim Heeseung Kwon Chunyu Wang Suha Kwak Minsu Cho

Zusammenfassung

Die Faltung gilt mit großer Wahrscheinlichkeit als die wichtigste Merkmalstransformation für moderne neuronale Netze und hat maßgeblich zum Fortschritt des tiefen Lernens beigetragen. Die jüngste Einführung von Transformer-Netzwerken, die Faltungsschichten durch Selbst-Attention-Blöcke ersetzen, hat die Beschränkungen stationärer Faltungskerne aufgezeigt und die Tür für die Ära dynamischer Merkmalstransformationen geöffnet. Die bisherigen dynamischen Transformationen, darunter die Selbst-Attention, sind jedoch für die Videoverstehensaufgaben eingeschränkt, da sie Korrespondenzbeziehungen in Raum und Zeit – also Bewegungsinformationen – nicht ausreichend erfassen können. In dieser Arbeit stellen wir eine relationale Merkmalstransformation vor, die als relationale Selbst-Attention (RSA) bezeichnet wird und durch dynamische Generierung von relationalen Kernen sowie die Aggregation relationaler Kontexte die reichhaltigen Strukturen räumlich-zeitlicher Beziehungen in Videos nutzt. Unsere Experimente und Ablationstudien zeigen, dass das RSA-Netzwerk die Leistung von Faltung und Selbst-Attention deutlich übertrifft und die aktuell besten Ergebnisse auf den etablierten, bewegungsorientierten Benchmarks für Videoaktionserkennung erzielt, wie beispielsweise Something-Something-V1 & V2, Diving48 und FineGym.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Relationales Selbst-Attention: Was im Attention-Mechanismus für die Videoverstehens fehlt | Paper | HyperAI