HyperAIHyperAI

Command Palette

Search for a command to run...

MDMMT: Multidomain Multimodal Transformer für die Videoretrieval

Maksim Dzabraev Maksim Kalashnikov Stepan Komkov Aleksandr Petiushko

Zusammenfassung

Wir präsentieren eine neue State-of-the-Art-Leistung beim Text-zu-Video-Abfrage-Task auf den Benchmarks MSRVTT und LSMDC, wobei unser Modell alle vorherigen Ansätze deutlich übertrifft. Zudem werden State-of-the-Art-Ergebnisse auf zwei Datensätzen mit einem einzigen Modell erzielt, ohne dass eine Nachtrainierung (Fine-tuning) erforderlich ist. Diese multidomänenübergreifende Generalisierung wird durch eine sorgfältige Kombination verschiedener Video-Caption-Datensätze erreicht. Wir zeigen, dass das Training auf unterschiedlichen Datensätzen die Testleistung jedes einzelnen Datensatzes verbessern kann. Zudem analysieren wir die Überlappung zwischen zahlreichen gängigen Datensätzen und stellen fest, dass MSRVTT eine erhebliche Überlappung zwischen Test- und Trainingsdaten aufweist; ein ähnliches Phänomen beobachten wir auch bei ActivityNet.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MDMMT: Multidomain Multimodal Transformer für die Videoretrieval | Paper | HyperAI