vor 17 Tagen

Relationales Selbst-Attention: Was im Attention-Mechanismus für die Videoverstehens fehlt

Manjin Kim, Heeseung Kwon, Chunyu Wang, Suha Kwak, Minsu Cho

Abstract

Die Faltung gilt mit großer Wahrscheinlichkeit als die wichtigste Merkmalstransformation für moderne neuronale Netze und hat maßgeblich zum Fortschritt des tiefen Lernens beigetragen. Die jüngste Einführung von Transformer-Netzwerken, die Faltungsschichten durch Selbst-Attention-Blöcke ersetzen, hat die Beschränkungen stationärer Faltungskerne aufgezeigt und die Tür für die Ära dynamischer Merkmalstransformationen geöffnet. Die bisherigen dynamischen Transformationen, darunter die Selbst-Attention, sind jedoch für die Videoverstehensaufgaben eingeschränkt, da sie Korrespondenzbeziehungen in Raum und Zeit – also Bewegungsinformationen – nicht ausreichend erfassen können. In dieser Arbeit stellen wir eine relationale Merkmalstransformation vor, die als relationale Selbst-Attention (RSA) bezeichnet wird und durch dynamische Generierung von relationalen Kernen sowie die Aggregation relationaler Kontexte die reichhaltigen Strukturen räumlich-zeitlicher Beziehungen in Videos nutzt. Unsere Experimente und Ablationstudien zeigen, dass das RSA-Netzwerk die Leistung von Faltung und Selbst-Attention deutlich übertrifft und die aktuell besten Ergebnisse auf den etablierten, bewegungsorientierten Benchmarks für Videoaktionserkennung erzielt, wie beispielsweise Something-Something-V1 & V2, Diving48 und FineGym.