HyperAIHyperAI

Command Palette

Search for a command to run...

RefVOS : Une analyse approfondie des expressions de référence pour la segmentation d'objets vidéo

Miriam Bellver Carles Ventura Carina Silberer Ioannis Kazakos Jordi Torres Xavier Giro-i-Nieto

Résumé

La tâche de segmentation d'objets vidéo à partir d'expressions référentielles (VOS guidée par le langage) consiste, étant donné une expression linguistique et une vidéo, à générer des masques binaires correspondant à l'objet visé par l'expression. Notre travail soutient que les benchmarks existants utilisés pour cette tâche sont principalement composés de cas triviaux, dans lesquels les référents peuvent être identifiés à l’aide d’expressions simples. Notre analyse s’appuie sur une nouvelle catégorisation des expressions référentielles présentes dans les jeux de données DAVIS-2017 et Actor-Action, divisées en expressions triviales et non triviales, les expressions non triviales étant annotées selon sept catégories sémantiques. En exploitant ces données, nous analysons les performances de RefVOS, un nouveau réseau neuronal qui obtient des résultats compétitifs pour la segmentation d’images guidée par le langage et des résultats de pointe pour la segmentation vidéo guidée par le langage. Notre étude indique que les principaux défis de cette tâche sont liés à la compréhension du mouvement et des actions statiques.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp