HyperAIHyperAI

Command Palette

Search for a command to run...

MDMMT : Transformer multidomaine multimodal pour la recherche vidéo

Maksim Dzabraev Maksim Kalashnikov Stepan Komkov Aleksandr Petiushko

Résumé

Nous présentons une nouvelle référence en matière de récupération texte-vidéo sur les benchmarks MSRVTT et LSMDC, où notre modèle surpasse largement toutes les solutions antérieures. En outre, des résultats de pointe sont atteints sur deux jeux de données avec un seul modèle, sans adaptation fine (fine-tuning). Cette généralisation multidomaine est obtenue grâce à une combinaison appropriée de différents jeux de données de descriptions vidéo. Nous démontrons que l'entraînement sur des jeux de données distincts peut améliorer mutuellement les performances sur les tests. En outre, nous analysons les intersections entre plusieurs jeux de données populaires et constatons un chevauchement significatif entre les ensembles d'entraînement et de test pour MSRVTT, situation similaire observée pour ActivityNet.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp