vor 2 Monaten

Einfache Offene-Vokabular-Objekterkennung mit Visionstransformatoren

Minderer, Matthias ; Gritsenko, Alexey ; Stone, Austin ; Neumann, Maxim ; Weissenborn, Dirk ; Dosovitskiy, Alexey ; Mahendran, Aravindh ; Arnab, Anurag ; Dehghani, Mostafa ; Shen, Zhuoran ; Wang, Xiao ; Zhai, Xiaohua ; Kipf, Thomas ; Houlsby, Neil

Details der Forschungsarbeit anzeigen

Einfache Offene-Vokabular-Objekterkennung mit Visionstransformatoren

Abstract

Die Kombination einfacher Architekturen mit groß angelegtem Vor-Training hat zu erheblichen Verbesserungen bei der Bildklassifizierung geführt. Für die Objekterkennung sind Vor-Training- und Skalierungsansätze weniger etabliert, insbesondere in langschwänzigen und offenen Vokabularszenarien, wo Trainingsdaten relativ knapp sind. In dieser Arbeit schlagen wir ein starkes Rezept vor, um Bild-Text-Modelle auf die offene Vokabularobjekterkennung zu übertragen. Wir verwenden eine standardisierte Vision Transformer-Architektur mit minimalen Änderungen, kontrastives Bild-Text-Vor-Training und fein abgestimmtes End-to-End-Detektionsfeinjustierung. Unsere Analyse der Skalierungseigenschaften dieses Setups zeigt, dass das Erhöhen des bildbasierten Vor-Trainings und der Modellgröße stetige Verbesserungen bei der nachgeschalteten Detektionsaufgabe bringt. Wir stellen die Anpassungsstrategien und Regularisierungen bereit, die notwendig sind, um sehr starke Ergebnisse bei der Null-Shot Textbedingten und One-Shot Bildbedingten Objekterkennung zu erzielen. Der Quellcode und die Modelle sind auf GitHub verfügbar.