Command Palette
Search for a command to run...
Region-bewusstes Vortrainieren für die detektion von Objekten mit offenen Vokabularien unter Verwendung von Vision-Transformern
Region-bewusstes Vortrainieren für die detektion von Objekten mit offenen Vokabularien unter Verwendung von Vision-Transformern
Dahun Kim; Anelia Angelova; Weicheng Kuo
Zusammenfassung
Wir präsentieren Region-aware Open-vocabulary Vision Transformers (RO-ViT) – ein kontrastives Bild-Text-Vortrainingsverfahren zur Brückenschlagung zwischen bildbasiertem Vortraining und offenvokabulärem Objekterkennung. Im Vortrainingsphase schlagen wir vor, Positionsembeddings zufällig zu beschneiden und zu vergrößern, anstatt die gesamten Bildpositionsembeddings zu verwenden. Dies entspricht besser der Verwendung von Positionsembeddings auf regionaler Ebene im Feinjustierungsprozess der Erkennung. Zudem ersetzen wir den üblichen Softmax-Cross-Entropy-Verlust im kontrastiven Lernen durch Focal Loss, um die informativen, aber schwierigen Beispiele besser zu lernen. Schließlich nutzen wir aktuelle Fortschritte bei neuen Objektvorschlägen, um das Feinjustierungsverfahren für offenvokabuläre Erkennung zu verbessern. Wir evaluieren unser vollständiges Modell anhand der Benchmarks für offenvokabuläre Objekterkennung LVIS und COCO sowie des Zero-Shot-Transfers. RO-ViT erreicht einen Stand-des-Nachfragens von 34,1 APr auf LVIS, was den besten bisher bekannten Ansatz um +7,8 Punkte übertrifft und gleichzeitig eine wettbewerbsfähige Zero-Shot-Erkennung ermöglicht. Überraschenderweise verbessert RO-ViT auch die bildbasierte Repräsentation und erzielt den Stand-des-Nachfrages in 9 von 12 Metriken auf den Benchmarks für Bild-Text-Retrieval von COCO und Flickr, wobei es wettbewerbsfähige Ansätze mit größeren Modellen übertrifft.