Few-Shot-Objekterkennung und -detektion

Wir befassen uns mit der neuen Aufgabe des Few-Shot-Objektzählens und -erkennens. Gegeben sind einige Beispiel-Bounding-Boxen einer Zielobjektklasse, mit denen wir alle Objekte dieser Klasse zählen und erkennen möchten. Diese Aufgabe teilt die gleiche Überwachung wie das Few-Shot-Objektzählen, gibt jedoch zusätzlich die Bounding-Boxen der Objekte zusammen mit der Gesamtanzahl der Objekte aus. Um dieses anspruchsvolle Problem anzugehen, führen wir eine neuartige zweistufige Trainingsstrategie sowie einen neuartigen unsicherheitsbewussten Few-Shot-Objekterkennungsansatz ein: Counting-DETR. Die erstere Strategie zielt darauf ab, Pseudo-Ground-Truth-Bounding-Boxen zu generieren, um den letzteren Ansatz zu trainieren. Der letztere Ansatz nutzt die durch die erstere Strategie bereitgestellten Pseudo-Ground-Truth-Daten, aber er unternimmt die notwendigen Schritte, um die Unvollkommenheiten der Pseudo-Ground-Truth zu berücksichtigen. Um die Leistung unserer Methode bei der neuen Aufgabe zu überprüfen, stellen wir zwei neue Datensätze vor: FSCD-147 und FSCD-LVIS. Beide Datensätze enthalten Bilder mit komplexen Szenen, mehreren Objektklassen pro Bild und einer großen Variation in den Formen, Größen und Erscheinungen der Objekte. Unser vorgeschlagener Ansatz übertrifft sehr starke Baselineverfahren, die von Few-Shot-Objektzählen und Few-Shot-Objekterkennung adaptiert wurden, sowohl in den Zählmetriken als auch in den Erkennungsmetriken um ein großes Maß. Der Code und die Modelle sind unter https://github.com/VinAIResearch/Counting-DETR verfügbar.