HyperAIHyperAI

Command Palette

Search for a command to run...

Video-Adverbien-Retrieval mit kompositionellen Adverbien-Aktion-Embeddings

Thomas Hummel Otniel-Bogdan Mercea A. Sophia Koepke Zeynep Akata

Zusammenfassung

Die Identifizierung von Adverbien, die eine Aktion in einem Video beschreiben, stellt einen entscheidenden Schritt zur feingranularen Videobewertung dar. Wir schlagen ein Framework für die Video-zu-Adverb-Retrieval (und umgekehrt) vor, das Video-Embeddings mit ihren passenden kompositionalen Adverb-Aktions-Text-Embeddings in einem gemeinsamen Embedding-Raum ausrichtet. Das kompositionale Adverb-Aktions-Text-Embedding wird unter Verwendung eines Residual-Gating-Mechanismus gelernt, zusammen mit einem neuen Trainingsziel, das aus Triplettenverlusten und einem Regressionsziel besteht. Unsere Methode erzielt den aktuellen Stand der Technik auf fünf neueren Benchmarks für die Video-Adverb-Retrieval. Darüber hinaus führen wir Datensatz-Splits ein, um die Video-Adverb-Retrieval für unbekannte Adverb-Aktions-Kompositionen auf Teilmengen des MSR-VTT Adverbs und ActivityNet Adverbs-Datensatzes zu bewerten. Unser vorgeschlagenes Framework übertrifft alle früheren Arbeiten bei der Generalisierungsaufgabe, Adverbien aus Videos für unbekannte Adverb-Aktions-Kompositionen zu retrivieren. Der Quellcode und die Datensatz-Splits sind unter https://hummelth.github.io/ReGaDa/ verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp