HyperAIHyperAI
vor 7 Tagen

Rudder: Ein mehrsprachiges Datensatz für die Video- und Textretrieval

Jayaprakash A, Abhishek, Rishabh Dabral, Ganesh Ramakrishnan, Preethi Jyothi
Rudder: Ein mehrsprachiges Datensatz für die Video- und Textretrieval
Abstract

Die Videoabfrage mittels natürlicher Sprachanfragen erfordert die Lernung semantisch sinnvoller gemeinsamer Einbettungen zwischen Text und audiovisuellem Eingabedaten. Oft werden solche gemeinsamen Einbettungen unter Verwendung von Paar- oder Tripel-Contrastive-Loss-Funktionen erlernt, die während des Trainings nicht ausreichend Aufmerksamkeit auf „schwierig abzurufende“ Beispiele richten können. Dieses Problem tritt besonders in datenarmen Szenarien auf, in denen die Daten relativ klein sind (10 % des großen MSR-VTT-Datensatzes), um den relativ komplexen audiovisuellen Einbettungsraum hinreichend abzudecken. In diesem Kontext stellen wir Rudder vor – einen mehrsprachigen Datensatz für Video-Text-Abfrage, der Audio- und Textbeschreibungen in Marathi, Hindi, Tamil, Kannada, Malayalam und Telugu enthält. Darüber hinaus schlagen wir vor, die Datenknappheit durch die Nutzung von Domänenwissen zur Erweiterung der Supervision zu kompensieren. Dazu führen wir zusätzlich zu den herkömmlichen drei Elementen eines Tripels (Anchor, Positiv, Negativ) ein viertes Element – einen „Partial“ – ein, um eine differenzielle Margin-basierte Partial-Order-Loss-Funktion zu definieren. Die Partials werden heuristisch so ausgewählt, dass sie semantisch in der Überlappungszone zwischen Positiven und Negativen liegen, wodurch eine breitere Abdeckung des Einbettungsraums erreicht wird. Unsere Vorschläge überzeugen konsistent gegenüber den herkömmlichen Max-Margin- und Tripel-Loss-Funktionen und verbessern die derzeitige State-of-the-Art-Leistung auf den MSR-VTT- und DiDeMO-Datensätzen. Wir präsentieren Benchmark-Ergebnisse auf Rudder und beobachten signifikante Verbesserungen durch die vorgeschlagene Partial-Order-Loss, insbesondere dann, wenn sprachspezifische Retrieval-Modelle gemeinsam trainiert werden, wobei die zwischen-sprachliche Ausrichtung über die sprachspezifischen Datensätze genutzt wird.