HyperAIHyperAI

Command Palette

Search for a command to run...

Region-bewusstes Vortrainieren für die detektion von Objekten mit offenen Vokabularien unter Verwendung von Vision-Transformern

Dahun Kim; Anelia Angelova; Weicheng Kuo

Zusammenfassung

Wir präsentieren Region-aware Open-vocabulary Vision Transformers (RO-ViT) – ein kontrastives Bild-Text-Vortrainingsverfahren zur Brückenschlagung zwischen bildbasiertem Vortraining und offenvokabulärem Objekterkennung. Im Vortrainingsphase schlagen wir vor, Positionsembeddings zufällig zu beschneiden und zu vergrößern, anstatt die gesamten Bildpositionsembeddings zu verwenden. Dies entspricht besser der Verwendung von Positionsembeddings auf regionaler Ebene im Feinjustierungsprozess der Erkennung. Zudem ersetzen wir den üblichen Softmax-Cross-Entropy-Verlust im kontrastiven Lernen durch Focal Loss, um die informativen, aber schwierigen Beispiele besser zu lernen. Schließlich nutzen wir aktuelle Fortschritte bei neuen Objektvorschlägen, um das Feinjustierungsverfahren für offenvokabuläre Erkennung zu verbessern. Wir evaluieren unser vollständiges Modell anhand der Benchmarks für offenvokabuläre Objekterkennung LVIS und COCO sowie des Zero-Shot-Transfers. RO-ViT erreicht einen Stand-des-Nachfragens von 34,1 APrAP_rAPr auf LVIS, was den besten bisher bekannten Ansatz um +7,8 Punkte übertrifft und gleichzeitig eine wettbewerbsfähige Zero-Shot-Erkennung ermöglicht. Überraschenderweise verbessert RO-ViT auch die bildbasierte Repräsentation und erzielt den Stand-des-Nachfrages in 9 von 12 Metriken auf den Benchmarks für Bild-Text-Retrieval von COCO und Flickr, wobei es wettbewerbsfähige Ansätze mit größeren Modellen übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Region-bewusstes Vortrainieren für die detektion von Objekten mit offenen Vokabularien unter Verwendung von Vision-Transformern | Paper | HyperAI