Video-Adverbien-Retrieval mit kompositionellen Adverbien-Aktion-Embeddings

Die Identifizierung von Adverbien, die eine Aktion in einem Video beschreiben, stellt einen entscheidenden Schritt zur feingranularen Videobewertung dar. Wir schlagen ein Framework für die Video-zu-Adverb-Retrieval (und umgekehrt) vor, das Video-Embeddings mit ihren passenden kompositionalen Adverb-Aktions-Text-Embeddings in einem gemeinsamen Embedding-Raum ausrichtet. Das kompositionale Adverb-Aktions-Text-Embedding wird unter Verwendung eines Residual-Gating-Mechanismus gelernt, zusammen mit einem neuen Trainingsziel, das aus Triplettenverlusten und einem Regressionsziel besteht. Unsere Methode erzielt den aktuellen Stand der Technik auf fünf neueren Benchmarks für die Video-Adverb-Retrieval. Darüber hinaus führen wir Datensatz-Splits ein, um die Video-Adverb-Retrieval für unbekannte Adverb-Aktions-Kompositionen auf Teilmengen des MSR-VTT Adverbs und ActivityNet Adverbs-Datensatzes zu bewerten. Unser vorgeschlagenes Framework übertrifft alle früheren Arbeiten bei der Generalisierungsaufgabe, Adverbien aus Videos für unbekannte Adverb-Aktions-Kompositionen zu retrivieren. Der Quellcode und die Datensatz-Splits sind unter https://hummelth.github.io/ReGaDa/ verfügbar.