vor 9 Monaten

Amit K. Roy-Chowdhury Niluthpol Chowdhury Mithun Juncheng Li Florian Metze

Zusammenfassung

Die Erstellung einer gemeinsamen Darstellung, die invariant gegenüber verschiedenen Modalitäten (z. B. Video, Sprache) ist, ist für zahlreiche multimediale Anwendungen von entscheidender Bedeutung. Während in jüngster Zeit erhebliche Fortschritte bei der Entwicklung effektiver Bild-Text-Retrieval-Methoden durch das Lernen gemeinsamer Darstellungen erzielt wurden, wurde die Aufgabe des Video-Text-Retrievals bisher noch nicht ausreichend erschlossen. In diesem Paper untersuchen wir, wie verfügbare multimodale Hinweise aus Videos effektiv für die cross-modal Video-Text-Retrieval-Aufgabe genutzt werden können. Auf Basis unserer Analyse schlagen wir einen neuartigen Rahmen vor, der multimodale Merkmale (verschiedene visuelle Eigenschaften, Audiodaten und Text) durch eine Fusionsstrategie gleichzeitig nutzt, um eine effiziente Retrieval-Performance zu gewährleisten. Darüber hinaus untersuchen wir mehrere Verlustfunktionen zur Trainierung der gemeinsamen Einbettung und schlagen eine modifizierte Paarvergleichs-Ranking-Verlustfunktion für die Retrieval-Aufgabe vor. Experimente auf den Datensätzen MSVD und MSR-VTT zeigen, dass unsere Methode im Vergleich zu aktuellen State-of-the-Art-Ansätzen eine signifikante Leistungssteigerung erzielt.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

vor 9 Monaten

Multimodal

Multimodale Darstellung

Video Captioning

Amit K. Roy-Chowdhury Niluthpol Chowdhury Mithun Juncheng Li Florian Metze

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

vor 9 Monaten

Multimodal

Multimodale Darstellung

Video Captioning

Amit K. Roy-Chowdhury Niluthpol Chowdhury Mithun Juncheng Li Florian Metze

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Lernen gemeinsamer Embeddings mit multimodalen Hinweisen für die cross-modale Video-Text-Abfrage | Paper | HyperAI

Command Palette

Lernen gemeinsamer Embeddings mit multimodalen Hinweisen für die cross-modale Video-Text-Abfrage

Amit K. Roy-Chowdhury Niluthpol Chowdhury Mithun Juncheng Li Florian Metze

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Lernen gemeinsamer Embeddings mit multimodalen Hinweisen für die cross-modale Video-Text-Abfrage

Amit K. Roy-Chowdhury Niluthpol Chowdhury Mithun Juncheng Li Florian Metze

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Lernen gemeinsamer Embeddings mit multimodalen Hinweisen für die cross-modale Video-Text-Abfrage

Amit K. Roy-Chowdhury Niluthpol Chowdhury Mithun Juncheng Li Florian Metze

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters