HyperAIHyperAI
vor 15 Tagen

Open-Vocabulary DETR mit bedingter Übereinstimmung

Yuhang Zang, Wei Li, Kaiyang Zhou, Chen Huang, Chen Change Loy
Open-Vocabulary DETR mit bedingter Übereinstimmung
Abstract

Offen-vokabuläre Objektdetektion, die sich mit der Aufgabe befasst, neue Objekte anhand natürlicher Sprache zu erkennen, gewinnt zunehmend an Aufmerksamkeit in der Forschungsgemeinschaft. Ideal wäre es, einen offenen Vokabular-Detektor so zu erweitern, dass er anhand von Benutzereingaben – entweder in Form natürlicher Sprache oder exemplarischer Bilder – Achsenparallele Rechtecke (bounding boxes) vorhersagen kann. Dies ermöglicht eine erhebliche Flexibilität und verbessert die Benutzererfahrung bei der Mensch-Computer-Interaktion. Hierfür schlagen wir einen neuen offenen Vokabular-Detektor vor, der auf DETR basiert – daher der Name OV-DETR –, der nach der Ausbildung jedes Objekt erkennen kann, sobald dessen Klassenname oder ein exemplarisches Bild gegeben ist. Die größte Herausforderung bei der Umwandlung von DETR in einen offenen Vokabular-Detektor besteht darin, dass die Klassifikationskostenmatrix für neue Klassen nicht berechnet werden kann, ohne Zugriff auf gelabelte Bilder dieser Klassen. Um diese Herausforderung zu bewältigen, formulieren wir das Lernziel als binäre Zuordnung zwischen den Eingabeanfragen (Klassenname oder exemplarisches Bild) und den entsprechenden Objekten, wodurch eine nützliche Korrespondenz erlernt wird, die sich während des Testens auf unbekannte Anfragen generalisieren lässt. Zur Trainingszeit bedienen wir uns der Eingabeeinbettungen eines vortrainierten visuell-sprachlichen Modells wie CLIP, um die Transformer-Decoder bedingt zu machen und somit die Zuordnung sowohl für Text- als auch für Bildanfragen zu ermöglichen. Anhand umfangreicher Experimente auf den Datensätzen LVIS und COCO zeigen wir, dass unser OV-DETR – der erste end-to-end auf Transformers basierende offene Vokabular-Detektor – signifikante Verbesserungen gegenüber den aktuellen State-of-the-Art-Methoden erzielt.

Open-Vocabulary DETR mit bedingter Übereinstimmung | Neueste Forschungsarbeiten | HyperAI