OV-DQUO: Open-Vocabulary DETR mit Denoising Text Query Training und Open-World Unbekannten Objekten Supervision

Die Erkennung von offenen Vokabularien (Open-Vocabulary Detection) zielt darauf ab, Objekte aus neuen Kategorien zu erkennen, die über die Basis-Kategorien hinausgehen, auf denen der Detektor trainiert wurde. Bestehende offene Vokabular-Detektoren, die auf Daten von Basis-Kategorien trainiert wurden, neigen jedoch dazu, den trainierten Kategorien ein höheres Vertrauen zuzuweisen und neue Kategorien mit dem Hintergrund zu verwechseln. Um dieses Problem zu lösen, schlagen wir OV-DQUO vor: einen Offen-Vokabular-DETR mit Denoising-Text-Query-Training und offener Welt Unknown-Objects-Supervision. Insbesondere führen wir eine Wildcard-Matching-Methode ein. Diese Methode ermöglicht es dem Detektor, aus Paaren von unbekannten Objekten zu lernen, die vom offenen Welt-Detektor erkannt werden, und Texteinbettungen mit allgemeinen Semantiken, wodurch das Vertrauensbias zwischen Basis- und neuen Kategorien gemindert wird. Zudem schlagen wir eine Denoising-Text-Query-Trainingsstrategie vor. Sie synthetisiert Vordergrund- und Hintergrund-Anfrage-Rechteckpaare aus unbekannten Objekten in der offenen Welt, um den Detektor durch kontrastives Lernen zu trainieren und seine Fähigkeit zu verbessern, neue Objekte vom Hintergrund zu unterscheiden. Wir haben umfangreiche Experimente an den anspruchsvollen Benchmarks OV-COCO und OV-LVIS durchgeführt und dabei jeweils neue Standartwerte von 45,6 AP50 und 39,3 mAP für neue Kategorien erreicht, ohne zusätzliche Trainingsdaten zu benötigen. Die Modelle und der Code sind unter \url{https://github.com/xiaomoguhz/OV-DQUO} verfügbar.