HyperAIHyperAI

Command Palette

Search for a command to run...

CLIM: Kontrastives Sprache-Bild-Mosaik für Regionendarstellung

Size Wu Wenwei Zhang Lumin Xu Sheng Jin Wentao Liu Chen Change Loy

Zusammenfassung

Die präzise Erkennung von Objekten aus einer großen oder offenen Vokabularliste erfordert eine vision-sprachliche Ausrichtung auf regionale Repräsentationen. Die Lernung einer solchen region-text-Ausrichtung mittels hochwertiger Box-Annotationen mit Textbezeichnungen oder -beschreibungen ist jedoch kostspielig und oft nicht praktikabel. Im Gegensatz dazu ist die Sammlung von Bild-Text-Paaren einfacher, fehlt jedoch an präziser Objektlokalisierung, um Regionen mit Texten zu verknüpfen. In diesem Paper stellen wir einen neuartigen Ansatz namens Contrastive Language-Image Mosaic (CLIM) vor, der große Mengen an Bild-Text-Paaren effizient nutzt, um regionale und textuelle Repräsentationen auszurichten. CLIM kombiniert mehrere Bilder zu einem mosaicartigen Bild und betrachtet jedes einzelne Bild als eine „Pseudoregion“. Die Merkmale jeder Pseudoregion werden extrahiert und mittels eines kontrastiven Verlustes trainiert, sodass sie der entsprechenden Texteinbettung ähnlich werden, aber von den anderen unterschiedlich sind. Dadurch lernt das Modell die region-text-Ausrichtung ohne die teuren Box-Annotationen. Als allgemein anwendbarer Ansatz verbessert CLIM konsistent verschiedene Methoden für offene Vokabular-Objekterkennung, die auf Caption-Supervision basieren. Zudem kann CLIM die regionale Repräsentation von vision-sprachlichen Modellen effektiv verbessern und somit stärkere Grundmodelle für offene Vokabular-Objekterkennung liefern. Unsere experimentellen Ergebnisse zeigen, dass CLIM verschiedene Baseline-Methoden für offene Vokabular-Objekterkennung auf den Benchmarks OV-COCO und OV-LVIS erheblich verbessert. Der Quellcode ist unter https://github.com/wusize/CLIM verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CLIM: Kontrastives Sprache-Bild-Mosaik für Regionendarstellung | Paper | HyperAI