SemiVL : Segmentations sémantiques semi-supervisées avec une guidance vision-langage

Dans la segmentation sémantique semi-supervisée, un modèle est entraîné à l’aide d’un nombre limité d’images étiquetées combinées à un grand corpus d’images non étiquetées, afin de réduire l’effort d’annotation élevé. Bien que les méthodes précédentes soient capables d’apprendre des frontières de segmentation précises, elles sont sujettes à confondre des classes présentant une apparence visuelle similaire en raison de la supervision limitée. En revanche, les modèles vision-langage (VLM) sont capables d’acquérir une connaissance sémantique diversifiée à partir de jeux de données image-caption, mais produisent des segmentation bruitées en raison de l’entraînement à l’échelle de l’image. Dans SemiVL, nous proposons d’intégrer des connaissances a priori riches issues de l’entraînement préalable des VLM à la segmentation sémantique semi-supervisée, afin d’apprendre des frontières décisionnelles sémantiques améliorées. Pour adapter le VLM du raisonnement global au raisonnement local, nous introduisons une stratégie de fine-tuning spatial pour un apprentissage efficace en termes d’étiquetage. Par ailleurs, nous concevons un décodeur guidé par le langage, permettant un raisonnement conjoint sur les modalités visuelle et linguistique. Enfin, nous proposons de gérer les ambiguïtés inhérentes aux étiquettes de classe en fournissant au modèle une guidance linguistique sous la forme de définitions de classes. Nous évaluons SemiVL sur quatre jeux de données de segmentation sémantique, où il surpasser significativement les méthodes semi-supervisées antérieures. Par exemple, SemiVL améliore l’état de l’art de +13,5 mIoU sur COCO avec seulement 232 images annotées, et de +6,1 mIoU sur Pascal VOC avec 92 étiquettes. Page du projet : https://github.com/google-research/semivl