HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen gemeinsamer Embeddings mit multimodalen Hinweisen für die cross-modale Video-Text-Abfrage

Amit K. Roy-Chowdhury Niluthpol Chowdhury Mithun Juncheng Li Florian Metze

Zusammenfassung

Die Erstellung einer gemeinsamen Darstellung, die invariant gegenüber verschiedenen Modalitäten (z. B. Video, Sprache) ist, ist für zahlreiche multimediale Anwendungen von entscheidender Bedeutung. Während in jüngster Zeit erhebliche Fortschritte bei der Entwicklung effektiver Bild-Text-Retrieval-Methoden durch das Lernen gemeinsamer Darstellungen erzielt wurden, wurde die Aufgabe des Video-Text-Retrievals bisher noch nicht ausreichend erschlossen. In diesem Paper untersuchen wir, wie verfügbare multimodale Hinweise aus Videos effektiv für die cross-modal Video-Text-Retrieval-Aufgabe genutzt werden können. Auf Basis unserer Analyse schlagen wir einen neuartigen Rahmen vor, der multimodale Merkmale (verschiedene visuelle Eigenschaften, Audiodaten und Text) durch eine Fusionsstrategie gleichzeitig nutzt, um eine effiziente Retrieval-Performance zu gewährleisten. Darüber hinaus untersuchen wir mehrere Verlustfunktionen zur Trainierung der gemeinsamen Einbettung und schlagen eine modifizierte Paarvergleichs-Ranking-Verlustfunktion für die Retrieval-Aufgabe vor. Experimente auf den Datensätzen MSVD und MSR-VTT zeigen, dass unsere Methode im Vergleich zu aktuellen State-of-the-Art-Ansätzen eine signifikante Leistungssteigerung erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lernen gemeinsamer Embeddings mit multimodalen Hinweisen für die cross-modale Video-Text-Abfrage | Paper | HyperAI