CLIP2TV: Ausrichten, Matchen und Distanzieren für die Video-Text-Retrieval

Moderne Video-Text-Zurückgewinnungs-Frameworks bestehen grundsätzlich aus drei Komponenten: einem Video-Encoder, einem Text-Encoder und einem Similaritätskopf. Aufgrund des Erfolgs bei der visuellen und textuellen Repräsentationslernung wurden inzwischen auch Transformer-basierte Encoder und Fusionsmethoden in den Bereich der Video-Text-Zurückgewinnung integriert. In diesem Bericht präsentieren wir CLIP2TV, mit dem Ziel, die entscheidenden Elemente in Transformer-basierten Ansätzen zu identifizieren. Dazu revisieren wir zunächst einige aktuelle Arbeiten im Bereich der multimodalen Lernverfahren, führen anschließend neue Techniken in die Video-Text-Zurückgewinnung ein und bewerten diese abschließend anhand umfangreicher Experimente unter verschiedenen Konfigurationen. Bemerkenswert ist, dass CLIP2TV auf dem MSR-VTT-Datensatz eine Leistung von 52,9@R1 erzielt, was die vorherige SOTA-Ergebnis um 4,1 % übertrifft.