ViLLa : Segmentation de raisonnement vidéo avec un grand modèle linguistique

Les efforts récents en segmentation de raisonnement vidéo (VRS) intègrent des grands modèles linguistiques (LLMs) avec des modèles de perception pour localiser et suivre les objets via des instructions textuelles, obtenant des résultats à peine satisfaisants dans des scénarios simples. Cependant, ils ont éprouvé des difficultés à discriminer et déduire les objets à partir des requêtes utilisateur dans des scènes plus réalistes caractérisées par de longues durées, plusieurs objets, des mouvements rapides et des occultations importantes. Dans ce travail, nous analysons les causes sous-jacentes de ces limitations et présentons ViLLa : Segmentation de raisonnement vidéo avec un grand modèle linguistique. Remarquablement, notre ViLLa parvient à relever ces défis grâce à plusieurs innovations clés : (1) un synthétiseur de contexte qui encode dynamiquement l'intention de l'utilisateur avec les contextes vidéo pour une raisonnable précise, résolvant les ambiguïtés dans les requêtes complexes ; (2) un synchroniseur temporel hiérarchique qui dissocie les interactions entre plusieurs objets dans des scénarios temporels complexes en modélisant ces interactions à différentes échelles temporelles locales et globales. Pour permettre un traitement efficace des vidéos longues, ViLLa incorpore également (3) un échantillonneur de segments clés qui partitionne adaptativement les vidéos longues en segments plus courts mais sémantiquement denses, réduisant ainsi la redondance. De plus, pour promouvoir la recherche dans ce domaine encore peu exploré, nous avons construit un benchmark VRS appelé VideoReasonSeg, mettant en avant différents scénarios complexes. Notre modèle obtient également des résultats impressionnants à l'état de l'art sur VideoReasonSeg, Ref-YouTube-VOS, Ref-DAVIS17, MeViS et ReVOS. Les expériences quantitatives et qualitatives montrent que notre méthode améliore efficacement les capacités de segmentation de raisonnement vidéo pour les grands modèles linguistiques multimodaux. Le code source et le jeu de données seront disponibles sur https://github.com/rkzheng99/ViLLa.