HyperAIHyperAI

Command Palette

Search for a command to run...

RoME: Rollenbewusstes Mixture-of-Expert-Transformer für Text-zu-Video-Retrieval

Burak Satar Hongyuan Zhu Hanwang Zhang Joo Hwee Lim

Zusammenfassung

Täglich werden riesige Mengen an Videos aufgrund der steigenden Beliebtheit sozialer Kanäle hochgeladen; daher nimmt die Bedeutung der Rückgewinnung der am besten passenden Videoinhalte basierend auf textuellen Nutzeranfragen kontinuierlich zu. Die meisten bestehenden Methoden berücksichtigen lediglich einen gemeinsamen Einbettungsraum zwischen globalen visuellen und textuellen Merkmalen, ohne die lokalen Strukturen jeder Modalität zu berücksichtigen. Andere Ansätze verwenden mehrere Einbettungsraum, die getrennt globale und lokale Merkmale enthalten, ignorieren jedoch die reichen Korrelationen zwischen den Modalitäten.Wir schlagen einen neuartigen Mixture-of-Experts-Transformer namens RoME vor, der Text und Video in drei Ebenen entkoppelt: räumliche Kontexte, zeitliche Kontexte und Objektkontexte. Mittels eines auf Transformers basierenden Aufmerksamkeitsmechanismus nutzen wir visuelle und textuelle Einbettungen sowohl auf globaler als auch auf lokaler Ebene vollständig aus, wobei der Mixture-of-Experts-Ansatz zur Berücksichtigung der Korrelationen zwischen Modalitäten und Strukturen beiträgt. Die Ergebnisse zeigen, dass unsere Methode die der State-of-the-Art-Verfahren auf den Datensätzen YouCook2 und MSR-VTT übertrifft, ohne dass eine vortrainierte visuelle Grundarchitektur erforderlich ist. Schließlich führen wir umfassende Ablationsstudien durch, um unsere Entwurfsentscheidungen zu erläutern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp