AVT: Audio-Video Transformer für die multimodale Aktionserkennung

Aktionserkennung ist ein zentraler Bereich für die Verständnis von Videos. Um effektiv aus heterogenen Datensourcen zu lernen, schlagen wir in dieser Arbeit einen neuen multimodalen Ansatz zur Aktionserkennung vor, den wir Audio-Video Transformer (AVT) nennen. AVT nutzt eine Kombination aus Video- und Audiosignalen, um die Genauigkeit der Aktionserkennung zu verbessern, wobei die effektive raumzeitliche Repräsentation durch den Video-Transformer ausgenutzt wird. Für die multimodale Fusion erfordert die einfache Kombination multimodaler Tokens in einem cross-modalen Transformer hohe Rechen- und Speicherressourcen. Stattdessen reduzieren wir die Komplexität zwischen den Modalitäten durch einen Audio-Video-Bottleneck-Transformer. Um die Lerneffizienz des multimodalen Transformers zu steigern, integrieren wir selbstüberwachte Ziele – nämlich audio-visuelle kontrastive Lernung, audio-visuelles Matching sowie maskiertes Audio- und Video-Lernen – in den Trainingsprozess von AVT. Diese Ziele ermöglichen es, unterschiedliche Audio- und Video-Repräsentationen in einen gemeinsamen multimodalen Repräsentationsraum abzubilden. Außerdem schlagen wir eine maskierte Audio-Segment-Loss-Funktion vor, um semantische Audio-Aktivitäten innerhalb von AVT zu lernen. Umfangreiche Experimente und Ablation-Studien auf drei öffentlichen Datensätzen sowie zwei internen Datensätzen belegen konsistent die Wirksamkeit des vorgeschlagenen AVT. Insbesondere übertrifft AVT seine vorherigen state-of-the-art-Modelle auf den Datensätzen Kinetics-Sounds und Epic-Kitchens-100 um jeweils 8 % und 1 %, ohne externe Trainingsdaten zu verwenden. Auf dem VGGSound-Datensatz erreicht AVT eine Verbesserung um 10 % gegenüber einem der vorherigen state-of-the-art-Video-Transformers, indem es das Audiosignal nutzt. Im Vergleich zu einem der vorherigen state-of-the-art-multimodalen Transformern ist AVT hinsichtlich der FLOPs um das 1,3-Fache effizienter und erreicht auf Epic-Kitchens-100 eine Genauigkeitssteigerung um 4,2 %. Visualisierungsergebnisse zeigen zudem, dass das Audio ergänzende und diskriminative Merkmale liefert und dass unser AVT in der Lage ist, Aktionen effektiv aus einer Kombination von Audio und Video zu verstehen.