HyperAIHyperAI
il y a 2 mois

VISA : Segmentation d'objets vidéo par raisonnement à l'aide de grands modèles linguistiques

Cilin Yan; Haochen Wang; Shilin Yan; Xiaolong Jiang; Yao Hu; Guoliang Kang; Weidi Xie; Efstratios Gavves
VISA : Segmentation d'objets vidéo par raisonnement à l'aide de grands modèles linguistiques
Résumé

La segmentation d'objets vidéo existante (VOS) repose sur des instructions explicites de l'utilisateur, telles que des catégories, des masques ou des phrases courtes, ce qui limite leur capacité à effectuer une segmentation vidéo complexe nécessitant un raisonnement basé sur les connaissances du monde. Dans cet article, nous introduisons une nouvelle tâche, la segmentation d'objets vidéo par raisonnement (ReasonVOS). Cette tâche vise à générer une séquence de masques de segmentation en réponse à des requêtes textuelles implicites qui nécessitent des capacités de raisonnement complexes basées sur les connaissances du monde et les contextes vidéo. Cela est crucial pour la compréhension structurée de l'environnement et les interactions centrées sur les objets, essentielles au développement de l'IA incarnée. Pour aborder ReasonVOS, nous présentons VISA (Assistant de segmentation instructif basé sur la vidéo), qui exploite les capacités de raisonnement basé sur les connaissances du monde des modèles linguistiques multimodaux (LLMs) tout en possédant la capacité de segmenter et de suivre des objets dans des vidéos grâce à un décodeur de masques. De plus, nous établissons un benchmark complet composé de 35 074 paires d'instructions-masques provenant de 1 042 vidéos diverses, intégrant un raisonnement complexe basé sur les connaissances du monde dans les tâches de segmentation pour l'ajustement et l'évaluation des modèles ReasonVOS. Les expériences menées sur 8 jeux de données démontrent l'efficacité de VISA pour traiter la segmentation par référence simple ainsi que la segmentation par raisonnement complexe dans les domaines vidéo et image. Le code et le jeu de données sont disponibles à l'adresse suivante : https://github.com/cilinyan/VISA.

VISA : Segmentation d'objets vidéo par raisonnement à l'aide de grands modèles linguistiques | Articles de recherche récents | HyperAI