HyperAIHyperAI

Command Palette

Search for a command to run...

CRIS: CLIP-getriebene Referenzbildsegmentierung

Wang Zhaoqing ; Lu Yu ; Li Qiang ; Tao Xunqiang ; Guo Yandong ; Gong Mingming ; Liu Tongliang

Zusammenfassung

Referenzbildsegmentierung zielt darauf ab, einen Referenten durch eine natürliche sprachliche Ausdrucksweise zu segmentieren. Aufgrund der unterschiedlichen Datenattribute zwischen Text und Bild ist es für ein Netzwerk herausfordernd, Text- und Pixel-Level-Features effektiv auszurichten. Bestehende Ansätze verwenden vortrainierte Modelle, um das Lernen zu erleichtern, transferieren jedoch die Wissensbestände von Sprache und Vision getrennt von diesen Modellen, wobei sie die multimodale Korrespondenzinformation ignorieren. Inspiriert durch den jüngsten Fortschritt im Bereich des kontrastiven Sprach-Bild-Vortrainings (Contrastive Language-Image Pretraining, CLIP), schlagen wir in diesem Artikel ein end-to-end CLIP-getriebenes Referenzbildsegmentierungsframework (CRIS) vor. Um das multimodale Wissen effektiv zu transferieren, greift CRIS auf Sprach-Bild-Decoding und kontrastives Lernen zurück, um die Ausrichtung von Text auf Pixel zu erreichen. Genauer gesagt haben wir einen Sprach-Bild-Decoder entwickelt, der feingranulare semantische Informationen von textuellen Repräsentationen auf jede Pixel-Level-Aktivierung überträgt, was die Konsistenz zwischen den beiden Modalitäten fördert. Darüber hinaus stellen wir ein text-zu-Pixel-kontrastives Lernen vor, das explizit sicherstellt, dass die textuellen Features den relevanten Pixel-Level-Features ähnlich sind und den irrelevanten unähnlich bleiben. Die experimentellen Ergebnisse auf drei Benchmark-Datensätzen zeigen, dass unser vorgeschlagenes Framework ohne jegliche Nachbearbeitung erheblich bessere Leistungen als der aktuelle Stand der Technik erzielt. Der Code wird veröffentlicht werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CRIS: CLIP-getriebene Referenzbildsegmentierung | Paper | HyperAI