HyperAIHyperAI
il y a 9 jours

MDMMT : Transformer multidomaine multimodal pour la recherche vidéo

Maksim Dzabraev, Maksim Kalashnikov, Stepan Komkov, Aleksandr Petiushko
MDMMT : Transformer multidomaine multimodal pour la recherche vidéo
Résumé

Nous présentons une nouvelle référence en matière de récupération texte-vidéo sur les benchmarks MSRVTT et LSMDC, où notre modèle surpasse largement toutes les solutions antérieures. En outre, des résultats de pointe sont atteints sur deux jeux de données avec un seul modèle, sans adaptation fine (fine-tuning). Cette généralisation multidomaine est obtenue grâce à une combinaison appropriée de différents jeux de données de descriptions vidéo. Nous démontrons que l'entraînement sur des jeux de données distincts peut améliorer mutuellement les performances sur les tests. En outre, nous analysons les intersections entre plusieurs jeux de données populaires et constatons un chevauchement significatif entre les ensembles d'entraînement et de test pour MSRVTT, situation similaire observée pour ActivityNet.