HyperAIHyperAI
vor 11 Tagen

LP-OVOD: Open-Vocabulary Object Detection durch Lineares Probing

Chau Pham, Truong Vu, Khoi Nguyen
LP-OVOD: Open-Vocabulary Object Detection durch Lineares Probing
Abstract

Diese Arbeit behandelt das anspruchsvolle Problem des offenen-Vokabular-Objektdetektions (OVOD), bei dem ein Objektdetektor sowohl bereits bekannte als auch unbekannte Klassen in Testbildern erkennen muss, ohne dass während des Trainings gelabelte Beispiele für die unbekannten Klassen vorliegen. Ein typischer Ansatz für OVOD nutzt gemeinsame Text-Bild-Embeddings von CLIP, um Box-Vorschläge ihren jeweils nächstgelegenen Textlabels zuzuordnen. Ein kritischer Nachteil dieses Verfahrens liegt darin, dass viele Boxen geringer Qualität – wie beispielsweise über- oder unterabgedeckte Objekte – dieselbe Ähnlichkeitsbewertung wie hochwertige Boxen erhalten, da CLIP nicht auf exakter Objektpositionsinformation trainiert wurde. Um dieses Problem zu lösen, schlagen wir eine neuartige Methode, LP-OVOD, vor, die Boxen geringer Qualität durch das Training eines sigmoiden linearen Klassifikators auf sogenannten Pseudolabels aus den am relevantesten Regionen für die neuen Textlabels ausschließt. Experimentelle Ergebnisse auf COCO belegen die überlegene Leistung unseres Ansatzes gegenüber dem Stand der Technik: Wir erreichen eine AP$_{\text{novel}}$ von $\textbf{40.5}$ unter Verwendung von ResNet50 als Backbone, ohne externe Datensätze oder Kenntnis der neuen Klassen während des Trainings. Der Quellcode wird unter https://github.com/VinAIResearch/LP-OVOD verfügbar sein.

LP-OVOD: Open-Vocabulary Object Detection durch Lineares Probing | Neueste Forschungsarbeiten | HyperAI