HyperAIHyperAI

Command Palette

Search for a command to run...

Segmentation d'objets vidéo référentiels bout-en-bout avec des transformateurs multimodaux

Adam Botach Evgenii Zheltonozhskii Chaim Baskin

Résumé

La tâche de segmentation d'objets vidéo référencés par texte (RVOS) consiste à segmenter une instance d'objet mentionnée dans un texte au sein des cadres d'une vidéo donnée. En raison de la nature complexe de cette tâche multimodale, qui combine le raisonnement textuel, la compréhension vidéo, la segmentation d'instances et le suivi, les approches existantes reposent généralement sur des pipelines sophistiqués pour la traiter. Dans cet article, nous proposons une approche simple basée sur les Transformers pour la RVOS. Notre cadre, nommé Multimodal Tracking Transformer (MTTR), modélise la tâche RVOS comme un problème de prédiction de séquence. Inspiré des avancées récentes en vision par ordinateur et en traitement du langage naturel, MTTR repose sur l'idée que la vidéo et le texte peuvent être traités conjointement de manière efficace et élégante par un unique modèle Transformer multimodal. MTTR est entièrement entraînable en end-to-end, ne contient pas de composants biaisés par le texte, et ne nécessite aucune étape postérieure de raffinement de masque. Par conséquent, il simplifie considérablement le pipeline RVOS par rapport aux méthodes existantes. Les évaluations sur des benchmarks standards montrent que MTTR surpasse significativement les méthodes antérieures sur plusieurs métriques. En particulier, MTTR obtient des gains impressionnants de +5,7 et +5,0 en mAP respectivement sur les jeux de données A2D-Sentences et JHMDB-Sentences, tout en traitant 76 cadres par seconde. En outre, nous rapportons des résultats très prometteurs sur l'ensemble de validation public de Refer-YouTube-VOS, un jeu de données RVOS plus exigeant qui n'a encore reçu que peu d'attention de la part des chercheurs. Le code permettant de reproduire nos expériences est disponible à l'adresse suivante : https://github.com/mttr2021/MTTR


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Segmentation d'objets vidéo référentiels bout-en-bout avec des transformateurs multimodaux | Articles | HyperAI