Region-zentrierte Bild-Sprache-Vortrainierung für Open-Vocabulary-Detektion

Wir präsentieren einen neuen Ansatz für die offene-Vokabular-Detektion, der auf einer regionzentrierten Bild-Sprache-Vortrainierung basiert und die Lücke zwischen Bild-Level-Vortrainierung und offener-Vokabular-Objektdetektion schließt. Im Vortrainierungsstadium integrieren wir die Detektionsarchitektur auf der Basis des Klassifikationsbackbones, wodurch die Detektionsköpfe durch die Nutzung großer Bild-Text-Paare besser auf die regionenbasierte Erkennung abgestimmt werden können. Unser Ansatz nutzt ausschließlich die standardmäßige kontrastive Verlustfunktion und verzichtet auf Pseudolabeling, wodurch er eine einfache, jedoch wirksame Erweiterung der kontrastiven Lernmethode darstellt, um sich selbst entwickelnde objektspezifische Semantiksignale zu lernen. Zusätzlich schlagen wir einen Ansatz namens „shifted-window learning“ vor, der auf der Fenster-Attention basiert und die Backbone-Darstellung robuster, translationsinvariant und weniger durch Muster des Fensters beeinflusst macht. Auf dem populären LVIS-Benchmark für offene-Vokabular-Detektion erreicht unser Ansatz mit dem gängigen ViT-L-Backbone und dem öffentlichen LAION-Datensatz einen neuen SOTA-Wert von 37,6 mask APr und mit dem DataComp-1B-Datensatz sogar 40,5 mask APr – deutlich über dem besten bisherigen Ansatz, der bei Systemebene um +3,7 mask APr hinter uns zurückbleibt. Auf dem COCO-Benchmark erzielen wir eine sehr wettbewerbsfähige Leistung von 39,6 novel AP, ohne Pseudolabeling oder schwache Aufsicht zu benötigen. Darüber hinaus evaluieren wir unseren Ansatz im Transfer-Detektions-Szenario, wo er gegenüber dem Baseline eine bemerkenswerte Verbesserung zeigt. Visualisierungen zeigen, dass sich im Vergleich zum Baseline während des Vortrainings deutlich verbesserte Objektlage ausbildet.