GUT: Geometrische Hinweise für die Objekterkennung in einer offenen Welt

Wir behandeln die Aufgabe der offenen Welt, klassenagnostischen Objekterkennung, d.h., das Erkennen aller Objekte in einem Bild durch das Lernen von einer begrenzten Anzahl grundlegender Objektklassen. Die neuesten RGB-basierten Modelle leiden unter dem Überanpassen an die Trainingsklassen und scheitern häufig bei der Erkennung von neuartigen Objekten. Dies liegt daran, dass RGB-basierte Modelle hauptsächlich auf Erscheinungsähnlichkeit basieren, um neue Objekte zu erkennen, und auch anfällig für das Überanpassen an kürzeste Wege wie Texturen und diskriminierende Teile sind. Um diese Nachteile von RGB-basierten Objekterkennern zu beheben, schlagen wir vor, geometrische Hinweise wie Tiefe und Normale einzubeziehen, die durch allgemeine monokulare Schätzer vorhergesagt werden. Insbesondere nutzen wir die geometrischen Hinweise, um ein Objektvorschlagsnetzwerk zu trainieren, das pseudolabelt unannotierte neuartige Objekte im Trainingsdatensatz. Unser resultierendes Geometrie-gestütztes Offene-Welt-Objekterkenner (GOOD) verbessert die Erkennungsrückrufquote für neuartige Objektkategorien erheblich und zeigt bereits gute Leistungen mit nur wenigen Trainingsklassen. Bei Verwendung einer einzelnen "Person"-Klasse für das Training auf dem COCO-Datensatz übertrifft GOOD die besten bisher bekannten Methoden um 5.0% AR@100, was einer relativen Verbesserung von 24% entspricht.