HyperAIHyperAI

Command Palette

Search for a command to run...

Region-zentrierte Bild-Sprache-Vortrainierung für Open-Vocabulary-Detektion

Dahun Kim Anelia Angelova Weicheng Kuo

Zusammenfassung

Wir präsentieren einen neuen Ansatz für die offene-Vokabular-Detektion, der auf einer regionzentrierten Bild-Sprache-Vortrainierung basiert und die Lücke zwischen Bild-Level-Vortrainierung und offener-Vokabular-Objektdetektion schließt. Im Vortrainierungsstadium integrieren wir die Detektionsarchitektur auf der Basis des Klassifikationsbackbones, wodurch die Detektionsköpfe durch die Nutzung großer Bild-Text-Paare besser auf die regionenbasierte Erkennung abgestimmt werden können. Unser Ansatz nutzt ausschließlich die standardmäßige kontrastive Verlustfunktion und verzichtet auf Pseudolabeling, wodurch er eine einfache, jedoch wirksame Erweiterung der kontrastiven Lernmethode darstellt, um sich selbst entwickelnde objektspezifische Semantiksignale zu lernen. Zusätzlich schlagen wir einen Ansatz namens „shifted-window learning“ vor, der auf der Fenster-Attention basiert und die Backbone-Darstellung robuster, translationsinvariant und weniger durch Muster des Fensters beeinflusst macht. Auf dem populären LVIS-Benchmark für offene-Vokabular-Detektion erreicht unser Ansatz mit dem gängigen ViT-L-Backbone und dem öffentlichen LAION-Datensatz einen neuen SOTA-Wert von 37,6 mask APr und mit dem DataComp-1B-Datensatz sogar 40,5 mask APr – deutlich über dem besten bisherigen Ansatz, der bei Systemebene um +3,7 mask APr hinter uns zurückbleibt. Auf dem COCO-Benchmark erzielen wir eine sehr wettbewerbsfähige Leistung von 39,6 novel AP, ohne Pseudolabeling oder schwache Aufsicht zu benötigen. Darüber hinaus evaluieren wir unseren Ansatz im Transfer-Detektions-Szenario, wo er gegenüber dem Baseline eine bemerkenswerte Verbesserung zeigt. Visualisierungen zeigen, dass sich im Vergleich zum Baseline während des Vortrainings deutlich verbesserte Objektlage ausbildet.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp