HyperAIHyperAI

Command Palette

Search for a command to run...

Das Lernen einer Text-Videos-Einbettung aus unvollständigen und heterogenen Daten

Antoine Miech Ivan Laptev Josef Sivic

Zusammenfassung

Die gemeinsame Verarbeitung von Video und Sprache ist ein aktives Forschungsgebiet mit zahlreichen Anwendungen. Frühere Arbeiten in diesem Bereich basieren in der Regel auf dem Lernen von Text-Video-Einbettungen (embeddings). Ein Problem bei diesem Ansatz ist jedoch das Fehlen umfangreicher annotierter Videobeschreibungsdatensätze für die Ausbildung. Um dieses Problem zu lösen, streben wir an, Text-Video-Einbettungen aus heterogenen Datenquellen zu lernen. Zu diesem Zweck schlagen wir ein Modell namens Mixture-of-Embedding-Experts (MEE) vor, das die Fähigkeit hat, fehlende Eingabemodalitäten während des Trainings zu verarbeiten. Dadurch kann unser Framework verbesserte Text-Video-Einbettungen gleichzeitig aus Bild- und Videodatensätzen lernen. Wir zeigen außerdem die Anwendbarkeit des MEE auf andere Eingabemodalitäten wie Gesichtsdeskriptoren. Unsere Methode wird anhand der Aufgabe der Videoretrieval evaluiert, wobei wir Ergebnisse für die Datensätze MPII Movie Description und MSR-VTT berichten. Das vorgeschlagene MEE-Modell zeigt erhebliche Verbesserungen und übertrifft die bisher veröffentlichten Methoden sowohl bei den Text-zu-Video- als auch bei den Video-zu-Text-Retrieval-Aufgaben. Der Quellcode ist unter folgendem Link verfügbar: https://github.com/antoine77340/Mixture-of-Embedding-Experts


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp