Alles erkennen mit wenigen Beispielen

Die Few-Shot-Objekterkennung zielt darauf ab, neue Kategorien bei nur wenigen Beispielbildern zu erkennen. Es handelt sich dabei um eine grundlegende Fähigkeit für Roboter, die Aufgaben in offenen Umgebungen ausführen sollen. Aktuelle Methoden konzentrieren sich auf Feinabstimmungsstrategien, die durch komplizierte Prozeduren eine breitere Anwendung verhindern. In dieser Arbeit stellen wir DE-ViT vor, einen Few-Shot-Objekterkenner, der keine Feinabstimmung erfordert. Die neuartige Architektur von DE-ViT basiert auf einem neuen Mechanismus zur Regionenausbreitung für die Lokalisierung. Die ausgebreiteten Regionenmasken werden durch eine lernfähige räumliche Integralschicht in Begrenzungsrahmen (bounding boxes) transformiert. Anstatt Prototypklassifizierer zu trainieren, schlagen wir vor, Prototypen zu verwenden, um ViT-Features in einen Unterraum zu projizieren, der über das Überlernen auf Basisklassen hinweg robust ist. Wir evaluieren DE-ViT anhand von Few-Shot- und One-Shot-Objekterkennungsbenchmarks mit Pascal VOC, COCO und LVIS. DE-ViT erzielt neue Standarte der Technik (state-of-the-art) Ergebnisse in allen Benchmarks. Bemerkenswerterweise übertreffen die Ergebnisse von DE-ViT bei COCO den Few-Shot-Stand der Technik um 15 mAP bei 10 Schüssen (shots) und um 7,2 mAP bei 30 Schüssen sowie den One-Shot-Stand der Technik um 2,8 AP50. Bei LVIS übertrifft DE-ViT den Few-Shot-Stand der Technik um 17 Box APr. Darüber hinaus evaluieren wir DE-ViT mit einem echten Roboter durch den Bau eines Pick-and-Place-Systems zur Sortierung neuer Objekte basierend auf Beispielbildern. Die Videos unserer Roboterdemonstrationen sowie der Quellcode und die Modelle von DE-ViT sind unter https://mlzxy.github.io/devit verfügbar.