HyperAIHyperAI

Command Palette

Search for a command to run...

Open-Vocabulary DETR mit bedingter Übereinstimmung

Yuhang Zang Wei Li Kaiyang Zhou Chen Huang Chen Change Loy

Zusammenfassung

Offen-vokabuläre Objektdetektion, die sich mit der Aufgabe befasst, neue Objekte anhand natürlicher Sprache zu erkennen, gewinnt zunehmend an Aufmerksamkeit in der Forschungsgemeinschaft. Ideal wäre es, einen offenen Vokabular-Detektor so zu erweitern, dass er anhand von Benutzereingaben – entweder in Form natürlicher Sprache oder exemplarischer Bilder – Achsenparallele Rechtecke (bounding boxes) vorhersagen kann. Dies ermöglicht eine erhebliche Flexibilität und verbessert die Benutzererfahrung bei der Mensch-Computer-Interaktion. Hierfür schlagen wir einen neuen offenen Vokabular-Detektor vor, der auf DETR basiert – daher der Name OV-DETR –, der nach der Ausbildung jedes Objekt erkennen kann, sobald dessen Klassenname oder ein exemplarisches Bild gegeben ist. Die größte Herausforderung bei der Umwandlung von DETR in einen offenen Vokabular-Detektor besteht darin, dass die Klassifikationskostenmatrix für neue Klassen nicht berechnet werden kann, ohne Zugriff auf gelabelte Bilder dieser Klassen. Um diese Herausforderung zu bewältigen, formulieren wir das Lernziel als binäre Zuordnung zwischen den Eingabeanfragen (Klassenname oder exemplarisches Bild) und den entsprechenden Objekten, wodurch eine nützliche Korrespondenz erlernt wird, die sich während des Testens auf unbekannte Anfragen generalisieren lässt. Zur Trainingszeit bedienen wir uns der Eingabeeinbettungen eines vortrainierten visuell-sprachlichen Modells wie CLIP, um die Transformer-Decoder bedingt zu machen und somit die Zuordnung sowohl für Text- als auch für Bildanfragen zu ermöglichen. Anhand umfangreicher Experimente auf den Datensätzen LVIS und COCO zeigen wir, dass unser OV-DETR – der erste end-to-end auf Transformers basierende offene Vokabular-Detektor – signifikante Verbesserungen gegenüber den aktuellen State-of-the-Art-Methoden erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Open-Vocabulary DETR mit bedingter Übereinstimmung | Paper | HyperAI