RoME: Rollenbewusstes Mixture-of-Expert-Transformer für Text-zu-Video-Retrieval

Täglich werden riesige Mengen an Videos aufgrund der steigenden Beliebtheit sozialer Kanäle hochgeladen; daher nimmt die Bedeutung der Rückgewinnung der am besten passenden Videoinhalte basierend auf textuellen Nutzeranfragen kontinuierlich zu. Die meisten bestehenden Methoden berücksichtigen lediglich einen gemeinsamen Einbettungsraum zwischen globalen visuellen und textuellen Merkmalen, ohne die lokalen Strukturen jeder Modalität zu berücksichtigen. Andere Ansätze verwenden mehrere Einbettungsraum, die getrennt globale und lokale Merkmale enthalten, ignorieren jedoch die reichen Korrelationen zwischen den Modalitäten.Wir schlagen einen neuartigen Mixture-of-Experts-Transformer namens RoME vor, der Text und Video in drei Ebenen entkoppelt: räumliche Kontexte, zeitliche Kontexte und Objektkontexte. Mittels eines auf Transformers basierenden Aufmerksamkeitsmechanismus nutzen wir visuelle und textuelle Einbettungen sowohl auf globaler als auch auf lokaler Ebene vollständig aus, wobei der Mixture-of-Experts-Ansatz zur Berücksichtigung der Korrelationen zwischen Modalitäten und Strukturen beiträgt. Die Ergebnisse zeigen, dass unsere Methode die der State-of-the-Art-Verfahren auf den Datensätzen YouCook2 und MSR-VTT übertrifft, ohne dass eine vortrainierte visuelle Grundarchitektur erforderlich ist. Schließlich führen wir umfassende Ablationsstudien durch, um unsere Entwurfsentscheidungen zu erläutern.