HyperAIHyperAI
il y a 2 mois

En Défense du Positionnement Visuel Paresseux pour la Segmentation Sémantique à Vocabulaire Ouvert

Dahyun Kang; Minsu Cho
En Défense du Positionnement Visuel Paresseux pour la Segmentation Sémantique à Vocabulaire Ouvert
Résumé

Nous présentons le lazy visual grounding, une approche en deux étapes comprenant la découverte non supervisée de masques d'objets suivie du groundage d'objets, pour la segmentation sémantique à vocabulaire ouvert. De nombreuses méthodes précédentes abordent cette tâche comme une classification pixel-à-texte sans compréhension au niveau des objets, en exploitant la capacité de classification image-à-texte des modèles pré-entraînés de vision et de langage. Nous soutenons que les objets visuels sont distincts sans information textuelle préalable, car la segmentation est fondamentalement une tâche de vision. Le lazy visual grounding découvre d'abord les masques d'objets couvrant une image par des coupures normalisées itératives, puis attribue du texte aux objets découverts de manière tardive et interactive. Notre modèle n'a pas besoin d'un entraînement supplémentaire mais montre des performances remarquables sur cinq jeux de données publics : Pascal VOC, Pascal Context, COCO-object, COCO-stuff et ADE 20K. En particulier, les résultats de segmentation visuellement attrayants démontrent la capacité du modèle à localiser précisément les objets. Page d'accueil du papier : https://cvlab.postech.ac.kr/research/lazygrounding

En Défense du Positionnement Visuel Paresseux pour la Segmentation Sémantique à Vocabulaire Ouvert | Articles de recherche récents | HyperAI