HyperAIHyperAI
vor 15 Tagen

Offene Vokabular-Objektdetektion mit Proposal-Mining und Vorhersageausgleichung

Peixian Chen, Kekai Sheng, Mengdan Zhang, Mingbao Lin, Yunhang Shen, Shaohui Lin, Bo Ren, Ke Li
Offene Vokabular-Objektdetektion mit Proposal-Mining und Vorhersageausgleichung
Abstract

Open-vocabulary Object Detection (OVD) zielt darauf ab, die Vokabulargröße zu erhöhen, um Objekte neuartiger Kategorien jenseits des während des Trainings verwendeten Vokabulars zu erkennen. In jüngster Zeit greifen Ansätze auf das reiche Wissen in vortrainierten vision-sprachlichen Modellen zurück. Allerdings sind bestehende Methoden ineffektiv bei der Ausrichtung auf Proposal-Ebene zwischen Vision und Sprache. Gleichzeitig leiden die Modelle häufig unter einem Vertrauensbias gegenüber Basis-Kategorien und erzielen schlechtere Ergebnisse bei neuartigen Kategorien. Um diese Herausforderungen zu meistern, präsentieren wir MEDet, einen neuartigen und effektiven OVD-Framework, der auf Proposal-Mining und Vorhersage-Ausgleich basiert. Zunächst entwickeln wir ein Online-Proposal-Mining, um das vererbte visuelle-Semantik-Wissen von grob zu fein zu verfeinern und eine auf das Detektionsziel ausgerichtete Merkmalsausrichtung auf Proposal-Ebene zu ermöglichen. Zweitens führen wir auf Basis der kausalen Inferenztheorie eine klassenweise Backdoor-Anpassung ein, um die Vorhersagen für neuartige Kategorien zu stärken und die Gesamtleistung im OVD zu verbessern. Umfangreiche Experimente auf den Benchmarks COCO und LVIS bestätigen die Überlegenheit von MEDet gegenüber bestehenden Ansätzen bei der Erkennung von Objekten neuartiger Kategorien, beispielsweise 32,6 % AP50 auf COCO und 22,4 % Mask mAP auf LVIS.

Offene Vokabular-Objektdetektion mit Proposal-Mining und Vorhersageausgleichung | Neueste Forschungsarbeiten | HyperAI