Command Palette
Search for a command to run...
Video-Adverbien-Retrieval mit kompositionellen Adverbien-Aktion-Embeddings
Video-Adverbien-Retrieval mit kompositionellen Adverbien-Aktion-Embeddings
Thomas Hummel Otniel-Bogdan Mercea A. Sophia Koepke Zeynep Akata
Zusammenfassung
Die Identifizierung von Adverbien, die eine Aktion in einem Video beschreiben, stellt einen entscheidenden Schritt zur feingranularen Videobewertung dar. Wir schlagen ein Framework für die Video-zu-Adverb-Retrieval (und umgekehrt) vor, das Video-Embeddings mit ihren passenden kompositionalen Adverb-Aktions-Text-Embeddings in einem gemeinsamen Embedding-Raum ausrichtet. Das kompositionale Adverb-Aktions-Text-Embedding wird unter Verwendung eines Residual-Gating-Mechanismus gelernt, zusammen mit einem neuen Trainingsziel, das aus Triplettenverlusten und einem Regressionsziel besteht. Unsere Methode erzielt den aktuellen Stand der Technik auf fünf neueren Benchmarks für die Video-Adverb-Retrieval. Darüber hinaus führen wir Datensatz-Splits ein, um die Video-Adverb-Retrieval für unbekannte Adverb-Aktions-Kompositionen auf Teilmengen des MSR-VTT Adverbs und ActivityNet Adverbs-Datensatzes zu bewerten. Unser vorgeschlagenes Framework übertrifft alle früheren Arbeiten bei der Generalisierungsaufgabe, Adverbien aus Videos für unbekannte Adverb-Aktions-Kompositionen zu retrivieren. Der Quellcode und die Datensatz-Splits sind unter https://hummelth.github.io/ReGaDa/ verfügbar.