RegionCLIP: regionenbasierte Sprache-Bild-Vortrainierung

Kontrastive Sprache-Bild-Vortraining (Contrastive Language-Image Pretraining, CLIP), das auf Bild-Text-Paaren basiert, hat beeindruckende Ergebnisse bei der Bildklassifikation sowohl in Zero-Shot- als auch in Transfer-Learning-Szenarien erzielt. Wir zeigen jedoch, dass die direkte Anwendung solcher Modelle zur Erkennung von Bildregionen für die Objekterkennung zu schlechten Leistungen führt, bedingt durch einen Domänenversatz: CLIP wurde darauf trainiert, ein Bild als Ganzes mit einer Textbeschreibung zu verknüpfen, ohne die feinabgestimmte Ausrichtung zwischen Bildregionen und Textabschnitten zu erfassen. Um dieses Problem zu beheben, schlagen wir eine neue Methode namens RegionCLIP vor, die CLIP erheblich erweitert, um visuelle Repräsentationen auf Regionenebene zu lernen und somit eine feinabgestimmte Ausrichtung zwischen Bildregionen und textuellen Konzepten zu ermöglichen. Unsere Methode nutzt ein CLIP-Modell, um Bildregionen mit Vorlage-Beschreibungen zu verknüpfen, und pretrainiert anschließend unser Modell, um diese Region-Text-Paare im Merkmalsraum auszurichten. Bei der Übertragung unseres vortrainierten Modells auf Aufgaben der offenen-Vokabular-Objekterkennung übertrifft unsere Methode den Stand der Technik signifikant um 3,8 AP50 und 2,2 AP für neue Kategorien auf den COCO- und LVIS-Datensätzen. Darüber hinaus ermöglichen die gelernten Regionenrepräsentationen Zero-Shot-Inferenz für die Objekterkennung und zeigen vielversprechende Ergebnisse sowohl auf COCO als auch auf LVIS. Unser Code ist unter https://github.com/microsoft/RegionCLIP verfügbar.