Command Palette
Search for a command to run...
Lernen gemeinsamer Embeddings mit multimodalen Hinweisen für die cross-modale Video-Text-Abfrage
Lernen gemeinsamer Embeddings mit multimodalen Hinweisen für die cross-modale Video-Text-Abfrage
Amit K. Roy-Chowdhury Niluthpol Chowdhury Mithun Juncheng Li Florian Metze
Zusammenfassung
Die Erstellung einer gemeinsamen Darstellung, die invariant gegenüber verschiedenen Modalitäten (z. B. Video, Sprache) ist, ist für zahlreiche multimediale Anwendungen von entscheidender Bedeutung. Während in jüngster Zeit erhebliche Fortschritte bei der Entwicklung effektiver Bild-Text-Retrieval-Methoden durch das Lernen gemeinsamer Darstellungen erzielt wurden, wurde die Aufgabe des Video-Text-Retrievals bisher noch nicht ausreichend erschlossen. In diesem Paper untersuchen wir, wie verfügbare multimodale Hinweise aus Videos effektiv für die cross-modal Video-Text-Retrieval-Aufgabe genutzt werden können. Auf Basis unserer Analyse schlagen wir einen neuartigen Rahmen vor, der multimodale Merkmale (verschiedene visuelle Eigenschaften, Audiodaten und Text) durch eine Fusionsstrategie gleichzeitig nutzt, um eine effiziente Retrieval-Performance zu gewährleisten. Darüber hinaus untersuchen wir mehrere Verlustfunktionen zur Trainierung der gemeinsamen Einbettung und schlagen eine modifizierte Paarvergleichs-Ranking-Verlustfunktion für die Retrieval-Aufgabe vor. Experimente auf den Datensätzen MSVD und MSR-VTT zeigen, dass unsere Methode im Vergleich zu aktuellen State-of-the-Art-Ansätzen eine signifikante Leistungssteigerung erzielt.