MDMMT: Multidomain Multimodal Transformer für die Videoretrieval

Wir präsentieren eine neue State-of-the-Art-Leistung beim Text-zu-Video-Abfrage-Task auf den Benchmarks MSRVTT und LSMDC, wobei unser Modell alle vorherigen Ansätze deutlich übertrifft. Zudem werden State-of-the-Art-Ergebnisse auf zwei Datensätzen mit einem einzigen Modell erzielt, ohne dass eine Nachtrainierung (Fine-tuning) erforderlich ist. Diese multidomänenübergreifende Generalisierung wird durch eine sorgfältige Kombination verschiedener Video-Caption-Datensätze erreicht. Wir zeigen, dass das Training auf unterschiedlichen Datensätzen die Testleistung jedes einzelnen Datensatzes verbessern kann. Zudem analysieren wir die Überlappung zwischen zahlreichen gängigen Datensätzen und stellen fest, dass MSRVTT eine erhebliche Überlappung zwischen Test- und Trainingsdaten aufweist; ein ähnliches Phänomen beobachten wir auch bei ActivityNet.