HyperAIHyperAI

Command Palette

Search for a command to run...

VISA : Segmentation d'objets vidéo par raisonnement à l'aide de grands modèles linguistiques

Cilin Yan* Haochen Wang* Shilin Yan, Xiaolong Jiang, Yao Hu Beihang University University of Amsterdam Xiaohongshu Inc. Guoliang Kang† Weidi Xie Efstratios Gavves Beihang University Shanghai Jiao Tong University University of Amsterdam

Résumé

La segmentation d'objets vidéo existante (VOS) repose sur des instructions explicites de l'utilisateur, telles que des catégories, des masques ou des phrases courtes, ce qui limite leur capacité à effectuer une segmentation vidéo complexe nécessitant un raisonnement basé sur les connaissances du monde. Dans cet article, nous introduisons une nouvelle tâche, la segmentation d'objets vidéo par raisonnement (ReasonVOS). Cette tâche vise à générer une séquence de masques de segmentation en réponse à des requêtes textuelles implicites qui nécessitent des capacités de raisonnement complexes basées sur les connaissances du monde et les contextes vidéo. Cela est crucial pour la compréhension structurée de l'environnement et les interactions centrées sur les objets, essentielles au développement de l'IA incarnée. Pour aborder ReasonVOS, nous présentons VISA (Assistant de segmentation instructif basé sur la vidéo), qui exploite les capacités de raisonnement basé sur les connaissances du monde des modèles linguistiques multimodaux (LLMs) tout en possédant la capacité de segmenter et de suivre des objets dans des vidéos grâce à un décodeur de masques. De plus, nous établissons un benchmark complet composé de 35 074 paires d'instructions-masques provenant de 1 042 vidéos diverses, intégrant un raisonnement complexe basé sur les connaissances du monde dans les tâches de segmentation pour l'ajustement et l'évaluation des modèles ReasonVOS. Les expériences menées sur 8 jeux de données démontrent l'efficacité de VISA pour traiter la segmentation par référence simple ainsi que la segmentation par raisonnement complexe dans les domaines vidéo et image. Le code et le jeu de données sont disponibles à l'adresse suivante : https://github.com/cilinyan/VISA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp