HyperAIHyperAI

Command Palette

Search for a command to run...

Modélisation multi-contexte temporellement cohérente pour la segmentation d'objets vidéo par référence

Choi

Résumé

La segmentation d'objets par référence vidéo vise à segmenter les objets dans une vidéo correspondant à une description textuelle donnée. Les approches actuelles de modélisation temporelle basées sur les transformateurs font face à des défis liés à l'incohérence des requêtes et à la prise en compte limitée du contexte. L'incohérence des requêtes génère des masques instables pour différents objets au milieu de la vidéo. La prise en compte limitée du contexte entraîne la segmentation d'objets incorrects en ne parvenant pas à prendre suffisamment en compte la relation entre le texte donné et les instances. Pour résoudre ces problèmes, nous proposons le module de cohérence temporelle multi-contexte (MTCM), qui comprend un Aligneur et un Renforceur multi-contexte (MCE). L'Aligneur élimine le bruit des requêtes et les aligne pour assurer leur cohérence. Le MCE prédit des requêtes pertinentes au texte en considérant plusieurs contextes. Nous avons appliqué MTCM à quatre modèles différents, améliorant leurs performances, notamment en atteignant un score de 47,6 J&F sur MeViS. Le code est disponible sur https://github.com/Choi58/MTCM.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp