Einfache Offene-Vokabular-Objekterkennung mit Visionstransformatoren

Die Kombination einfacher Architekturen mit groß angelegtem Vor-Training hat zu erheblichen Verbesserungen bei der Bildklassifizierung geführt. Für die Objekterkennung sind Vor-Training- und Skalierungsansätze weniger etabliert, insbesondere in langschwänzigen und offenen Vokabularszenarien, wo Trainingsdaten relativ knapp sind. In dieser Arbeit schlagen wir ein starkes Rezept vor, um Bild-Text-Modelle auf die offene Vokabularobjekterkennung zu übertragen. Wir verwenden eine standardisierte Vision Transformer-Architektur mit minimalen Änderungen, kontrastives Bild-Text-Vor-Training und fein abgestimmtes End-to-End-Detektionsfeinjustierung. Unsere Analyse der Skalierungseigenschaften dieses Setups zeigt, dass das Erhöhen des bildbasierten Vor-Trainings und der Modellgröße stetige Verbesserungen bei der nachgeschalteten Detektionsaufgabe bringt. Wir stellen die Anpassungsstrategien und Regularisierungen bereit, die notwendig sind, um sehr starke Ergebnisse bei der Null-Shot Textbedingten und One-Shot Bildbedingten Objekterkennung zu erzielen. Der Quellcode und die Modelle sind auf GitHub verfügbar.