Kreuzmodale Repräsentationslernen für Zero-shot-Aktionserkennung

Wir präsentieren einen auf Transformer basierenden, multimodalen Rahmen, der Video-Daten und Text-Labels gemeinsam kodiert, um die Zero-Shot-Aktionserkennung (ZSAR) zu ermöglichen. Unser Modell verwendet einen konzeptionell neuen Ansatz, bei dem visuelle Darstellungen gemeinsam mit visuell-semantischen Assoziationen end-to-end gelernt werden. Die Modellarchitektur bietet eine natürliche Mechanik, um visuelle und semantische Darstellungen in einem gemeinsamen Wissensraum zu lernen, wodurch die gelernten visuellen Embeddings diskriminativ und semantisch konsistenter werden. Bei der Zero-Shot-Inferenz entwickeln wir ein einfaches semantisches Übertragungsverfahren, das semantische Ähnlichkeitsinformationen zwischen gesehenen und nicht gesehenen Klassen nutzt, um unsichtbare visuelle Prototypen zu konstruieren. Dadurch können die diskriminativen Merkmale der visuellen Struktur bewahrt und genutzt werden, um typische Probleme der Zero-Shot-Erkennung – wie Informationsverlust, semantische Lücke und das Hubness-Problem – zu mildern. Unter einer strengen Zero-Shot-Testbedingung, bei der kein zusätzlicher Datensatz zur Vortrainierung verwendet wird, zeigen die Experimente, dass unser Modell die bisherigen State-of-the-Art-Methoden in der ZSAR deutlich übertrifft und ermutigende Top-1-Accuracy-Werte auf den Benchmark-Datensätzen UCF101, HMDB51 und ActivityNet erreicht. Der Quellcode wird verfügbar gemacht.