YOLO-World: Echtzeit-Objekterkennung mit offenen Vokabularien

Die Reihe der YOLO-Detektoren hat sich als effiziente und praktische Werkzeuge etabliert. Allerdings begrenzt ihre Abhängigkeit von vordefinierten und trainierten Objektkategorien ihre Anwendbarkeit in offenen Szenarien. Um diese Einschränkung zu überwinden, stellen wir YOLO-World vor, einen innovativen Ansatz, der YOLO durch die Integration von Open-Vocabulary-Erkennungsfähigkeiten mittels visueller und sprachlicher Modellierung sowie Vortrainieren auf umfangreichen Datensätzen verbessert. Insbesondere schlagen wir ein neuartiges reparametrierbares Visuellsprachliches Pfadaggregationsnetzwerk (RepVL-PAN) und eine regionstextbasierte kontrastive Verlustfunktion vor, um die Interaktion zwischen visuellen und sprachlichen Informationen zu erleichtern. Unsere Methode zeichnet sich dadurch aus, dass sie eine breite Palette von Objekten in einem Zero-Shot-Szenario mit hoher Effizienz erkennen kann. Auf dem anspruchsvollen LVIS-Datensatz erreicht YOLO-World eine AP von 35,4 bei 52,0 FPS auf V100-GPU, was viele der aktuellen Methoden sowohl hinsichtlich Genauigkeit als auch Geschwindigkeit übertreffen lässt. Darüber hinaus erzielt das feinjustierte YOLO-World außergewöhnliche Ergebnisse bei mehreren nachgelagerten Aufgaben, darunter Objekterkennung und Open-Vocabulary-Instanzsegmentierung.