HyperAIHyperAI
vor 17 Tagen

Video- und Textübereinstimmung mit konditionierten Embeddings

Ameen Ali, Idan Schwartz, Tamir Hazan, Lior Wolf
Video- und Textübereinstimmung mit konditionierten Embeddings
Abstract

Wir stellen eine Methode zur Übereinstimmung eines Textsatzes aus einer gegebenen Korpus mit einem gegebenen Videoclip sowie umgekehrt vor. Traditionell erfolgt die Übereinstimmung zwischen Video und Text durch das Lernen eines gemeinsamen Embedding-Raums, wobei die Kodierung einer Modality unabhängig von der anderen erfolgt. In dieser Arbeit kodieren wir die Datensatzdaten so, dass die relevante Information der Abfrage berücksichtigt wird. Die Stärke der Methode zeigt sich in der Pooling-Operation der Interaktionsdaten zwischen Wörtern und Bildern (Frames). Da die Kodierung des Videoclip von dem verglichenen Satz abhängt, muss die Darstellung für jede mögliche Übereinstimmung neu berechnet werden. Dazu schlagen wir ein effizientes, flaches neuronales Netzwerk vor. Sein Training nutzt eine hierarchische Triplet-Loss-Funktion, die auf die Übereinstimmung von Absätzen mit Videos erweiterbar ist. Die Methode ist einfach, bietet Erklärbarkeit und erreicht auf fünf unterschiedlichen Datensätzen – ActivityNet, DiDeMo, YouCook2, MSR-VTT und LSMDC – deutlich überlegene Ergebnisse im Vergleich zu bisherigen Ansätzen sowohl für die Sätze-Clip- als auch für die Video-Text-Übereinstimmung. Zudem zeigen wir, dass unsere bedingte Darstellung auf die video-gesteuerte maschinelle Übersetzung übertragen werden kann, wobei wir die aktuellen Ergebnisse auf VATEX verbessern konnten. Der Quellcode ist unter https://github.com/AmeenAli/VideoMatch verfügbar.

Video- und Textübereinstimmung mit konditionierten Embeddings | Neueste Forschungsarbeiten | HyperAI