CLIM: Kontrastives Sprache-Bild-Mosaik für Regionendarstellung

Die präzise Erkennung von Objekten aus einer großen oder offenen Vokabularliste erfordert eine vision-sprachliche Ausrichtung auf regionale Repräsentationen. Die Lernung einer solchen region-text-Ausrichtung mittels hochwertiger Box-Annotationen mit Textbezeichnungen oder -beschreibungen ist jedoch kostspielig und oft nicht praktikabel. Im Gegensatz dazu ist die Sammlung von Bild-Text-Paaren einfacher, fehlt jedoch an präziser Objektlokalisierung, um Regionen mit Texten zu verknüpfen. In diesem Paper stellen wir einen neuartigen Ansatz namens Contrastive Language-Image Mosaic (CLIM) vor, der große Mengen an Bild-Text-Paaren effizient nutzt, um regionale und textuelle Repräsentationen auszurichten. CLIM kombiniert mehrere Bilder zu einem mosaicartigen Bild und betrachtet jedes einzelne Bild als eine „Pseudoregion“. Die Merkmale jeder Pseudoregion werden extrahiert und mittels eines kontrastiven Verlustes trainiert, sodass sie der entsprechenden Texteinbettung ähnlich werden, aber von den anderen unterschiedlich sind. Dadurch lernt das Modell die region-text-Ausrichtung ohne die teuren Box-Annotationen. Als allgemein anwendbarer Ansatz verbessert CLIM konsistent verschiedene Methoden für offene Vokabular-Objekterkennung, die auf Caption-Supervision basieren. Zudem kann CLIM die regionale Repräsentation von vision-sprachlichen Modellen effektiv verbessern und somit stärkere Grundmodelle für offene Vokabular-Objekterkennung liefern. Unsere experimentellen Ergebnisse zeigen, dass CLIM verschiedene Baseline-Methoden für offene Vokabular-Objekterkennung auf den Benchmarks OV-COCO und OV-LVIS erheblich verbessert. Der Quellcode ist unter https://github.com/wusize/CLIM verfügbar.