EVF-SAM : Fusion précoce de la vision et du langage pour un modèle de segmentation universelle guidé par le texte

Le modèle Segment Anything (SAM) a attiré une attention considérable pour ses capacités supérieures de segmentation interactive avec des indices visuels, tout en manquant d'exploration plus approfondie des indices textuels. Dans cet article, nous menons une enquête empirique sur les encodeurs d'indices textuels (par exemple, CLIP ou LLM) qui sont efficaces pour adapter SAM à la segmentation par expression de référence et présentons le modèle SAM basé sur une fusion précoce vision-langue (EVF-SAM). EVF-SAM est une méthode de segmentation par référence simple mais efficace qui exploite des indices multimodaux (c'est-à-dire, image et texte) et comprend un modèle vision-langue pré-entraîné pour générer des indices de référence ainsi qu'un modèle SAM pour la segmentation. De manière surprenante, nous constatons que : (1) les indices multimodaux et (2) les modèles vision-langue avec fusion précoce (par exemple, BEIT-3) sont bénéfiques pour guider SAM vers une segmentation précise par expression de référence. Nos expériences montrent que l'EVF-SAM proposé, basé sur BEIT-3, peut obtenir des performances de pointe sur RefCOCO/+/g pour la segmentation par expression de référence et démontre l'avantage de guider SAM avec une fusion vision-langue précoce. De plus, l'EVF-SAM proposé avec 1,32 milliard de paramètres atteint des performances remarquablement élevées tout en réduisant près de 82 % des paramètres par rapport aux méthodes SAM précédentes basées sur des grands modèles multimodaux.