CRIS: CLIP-getriebene Referenzbildsegmentierung

Referenzbildsegmentierung zielt darauf ab, einen Referenten durch eine natürliche sprachliche Ausdrucksweise zu segmentieren. Aufgrund der unterschiedlichen Datenattribute zwischen Text und Bild ist es für ein Netzwerk herausfordernd, Text- und Pixel-Level-Features effektiv auszurichten. Bestehende Ansätze verwenden vortrainierte Modelle, um das Lernen zu erleichtern, transferieren jedoch die Wissensbestände von Sprache und Vision getrennt von diesen Modellen, wobei sie die multimodale Korrespondenzinformation ignorieren. Inspiriert durch den jüngsten Fortschritt im Bereich des kontrastiven Sprach-Bild-Vortrainings (Contrastive Language-Image Pretraining, CLIP), schlagen wir in diesem Artikel ein end-to-end CLIP-getriebenes Referenzbildsegmentierungsframework (CRIS) vor. Um das multimodale Wissen effektiv zu transferieren, greift CRIS auf Sprach-Bild-Decoding und kontrastives Lernen zurück, um die Ausrichtung von Text auf Pixel zu erreichen. Genauer gesagt haben wir einen Sprach-Bild-Decoder entwickelt, der feingranulare semantische Informationen von textuellen Repräsentationen auf jede Pixel-Level-Aktivierung überträgt, was die Konsistenz zwischen den beiden Modalitäten fördert. Darüber hinaus stellen wir ein text-zu-Pixel-kontrastives Lernen vor, das explizit sicherstellt, dass die textuellen Features den relevanten Pixel-Level-Features ähnlich sind und den irrelevanten unähnlich bleiben. Die experimentellen Ergebnisse auf drei Benchmark-Datensätzen zeigen, dass unser vorgeschlagenes Framework ohne jegliche Nachbearbeitung erheblich bessere Leistungen als der aktuelle Stand der Technik erzielt. Der Code wird veröffentlicht werden.