HyperAIHyperAI

Command Palette

Search for a command to run...

Einfache Offene-Vokabular-Objekterkennung mit Visionstransformatoren

Zusammenfassung

Die Kombination einfacher Architekturen mit groß angelegtem Vor-Training hat zu erheblichen Verbesserungen bei der Bildklassifizierung geführt. Für die Objekterkennung sind Vor-Training- und Skalierungsansätze weniger etabliert, insbesondere in langschwänzigen und offenen Vokabularszenarien, wo Trainingsdaten relativ knapp sind. In dieser Arbeit schlagen wir ein starkes Rezept vor, um Bild-Text-Modelle auf die offene Vokabularobjekterkennung zu übertragen. Wir verwenden eine standardisierte Vision Transformer-Architektur mit minimalen Änderungen, kontrastives Bild-Text-Vor-Training und fein abgestimmtes End-to-End-Detektionsfeinjustierung. Unsere Analyse der Skalierungseigenschaften dieses Setups zeigt, dass das Erhöhen des bildbasierten Vor-Trainings und der Modellgröße stetige Verbesserungen bei der nachgeschalteten Detektionsaufgabe bringt. Wir stellen die Anpassungsstrategien und Regularisierungen bereit, die notwendig sind, um sehr starke Ergebnisse bei der Null-Shot Textbedingten und One-Shot Bildbedingten Objekterkennung zu erzielen. Der Quellcode und die Modelle sind auf GitHub verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp