HyperAIHyperAI

Command Palette

Search for a command to run...

RegionCLIP: regionenbasierte Sprache-Bild-Vortrainierung

Zusammenfassung

Kontrastive Sprache-Bild-Vortraining (Contrastive Language-Image Pretraining, CLIP), das auf Bild-Text-Paaren basiert, hat beeindruckende Ergebnisse bei der Bildklassifikation sowohl in Zero-Shot- als auch in Transfer-Learning-Szenarien erzielt. Wir zeigen jedoch, dass die direkte Anwendung solcher Modelle zur Erkennung von Bildregionen für die Objekterkennung zu schlechten Leistungen führt, bedingt durch einen Domänenversatz: CLIP wurde darauf trainiert, ein Bild als Ganzes mit einer Textbeschreibung zu verknüpfen, ohne die feinabgestimmte Ausrichtung zwischen Bildregionen und Textabschnitten zu erfassen. Um dieses Problem zu beheben, schlagen wir eine neue Methode namens RegionCLIP vor, die CLIP erheblich erweitert, um visuelle Repräsentationen auf Regionenebene zu lernen und somit eine feinabgestimmte Ausrichtung zwischen Bildregionen und textuellen Konzepten zu ermöglichen. Unsere Methode nutzt ein CLIP-Modell, um Bildregionen mit Vorlage-Beschreibungen zu verknüpfen, und pretrainiert anschließend unser Modell, um diese Region-Text-Paare im Merkmalsraum auszurichten. Bei der Übertragung unseres vortrainierten Modells auf Aufgaben der offenen-Vokabular-Objekterkennung übertrifft unsere Methode den Stand der Technik signifikant um 3,8 AP50 und 2,2 AP für neue Kategorien auf den COCO- und LVIS-Datensätzen. Darüber hinaus ermöglichen die gelernten Regionenrepräsentationen Zero-Shot-Inferenz für die Objekterkennung und zeigen vielversprechende Ergebnisse sowohl auf COCO als auch auf LVIS. Unser Code ist unter https://github.com/microsoft/RegionCLIP verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
RegionCLIP: regionenbasierte Sprache-Bild-Vortrainierung | Paper | HyperAI