vor 8 Monaten

Zusammenfassung

Wir präsentieren Region-aware Open-vocabulary Vision Transformers (RO-ViT) – ein kontrastives Bild-Text-Vortrainingsverfahren zur Brückenschlagung zwischen bildbasiertem Vortraining und offenvokabulärem Objekterkennung. Im Vortrainingsphase schlagen wir vor, Positionsembeddings zufällig zu beschneiden und zu vergrößern, anstatt die gesamten Bildpositionsembeddings zu verwenden. Dies entspricht besser der Verwendung von Positionsembeddings auf regionaler Ebene im Feinjustierungsprozess der Erkennung. Zudem ersetzen wir den üblichen Softmax-Cross-Entropy-Verlust im kontrastiven Lernen durch Focal Loss, um die informativen, aber schwierigen Beispiele besser zu lernen. Schließlich nutzen wir aktuelle Fortschritte bei neuen Objektvorschlägen, um das Feinjustierungsverfahren für offenvokabuläre Erkennung zu verbessern. Wir evaluieren unser vollständiges Modell anhand der Benchmarks für offenvokabuläre Objekterkennung LVIS und COCO sowie des Zero-Shot-Transfers. RO-ViT erreicht einen Stand-des-Nachfragens von 34,1 $AP_r$ auf LVIS, was den besten bisher bekannten Ansatz um +7,8 Punkte übertrifft und gleichzeitig eine wettbewerbsfähige Zero-Shot-Erkennung ermöglicht. Überraschenderweise verbessert RO-ViT auch die bildbasierte Repräsentation und erzielt den Stand-des-Nachfrages in 9 von 12 Metriken auf den Benchmarks für Bild-Text-Retrieval von COCO und Flickr, wobei es wettbewerbsfähige Ansätze mit größeren Modellen übertrifft.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Objekterkennung

Multimodale Darstellung

Dahun Kim; Anelia Angelova; Weicheng Kuo

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Objekterkennung

Multimodale Darstellung

Dahun Kim; Anelia Angelova; Weicheng Kuo

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Region-bewusstes Vortrainieren für die detektion von Objekten mit offenen Vokabularien unter Verwendung von Vision-Transformern | Paper | HyperAI

Command Palette

Region-bewusstes Vortrainieren für die detektion von Objekten mit offenen Vokabularien unter Verwendung von Vision-Transformern

Dahun Kim; Anelia Angelova; Weicheng Kuo

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Region-bewusstes Vortrainieren für die detektion von Objekten mit offenen Vokabularien unter Verwendung von Vision-Transformern

Dahun Kim; Anelia Angelova; Weicheng Kuo

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Region-bewusstes Vortrainieren für die detektion von Objekten mit offenen Vokabularien unter Verwendung von Vision-Transformern

Dahun Kim; Anelia Angelova; Weicheng Kuo

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters