HyperAIHyperAI
il y a 2 mois

HyperSeg : Vers une segmentation visuelle universelle avec un grand modèle linguistique

Cong Wei; Yujie Zhong; Haoxian Tan; Yong Liu; Zheng Zhao; Jie Hu; Yujiu Yang
HyperSeg : Vers une segmentation visuelle universelle avec un grand modèle linguistique
Résumé

Ce travail vise à aborder la segmentation universelle pour la perception d'images et de vidéos, en s'appuyant sur les capacités de raisonnement avancées des Modèles Linguistiques Visuels à Grande Échelle (VLLMs). Malgré les progrès significatifs réalisés par les méthodes actuelles de segmentation unifiée, leurs limitations dans l'adaptation aux scénarios d'images et de vidéos, ainsi que leur difficulté à effectuer des segmentations complexes basées sur le raisonnement, rendent ardue la gestion d'instructions variées et complexes et l'obtention d'une compréhension précise des corrélations fines entre vision et langage. Nous proposons HyperSeg, le premier modèle de segmentation universelle basé sur les VLLMs pour la perception au niveau des pixels des images et des vidéos, couvrant non seulement les tâches de segmentation génériques mais aussi des tâches plus complexes de perception nécessitant des capacités de raisonnement puissantes et une connaissance du monde. De plus, afin d'exploiter pleinement les capacités de reconnaissance des VLLMs et les informations visuelles fines, HyperSeg intègre des modules de reconnaissance hybride d'entités et de perception visuelle fine pour diverses tâches de segmentation. Associé à un adaptateur temporel, HyperSeg atteint une compréhension complète des informations temporelles. Les résultats expérimentaux valident l'efficacité de nos approches pour résoudre les tâches de segmentation universelle d'images et de vidéos, y compris les tâches plus complexes liées à la perception basée sur le raisonnement. Notre code est disponible.