FSS-1000: Ein 1000-Klassen-Datensatz für Few-Shot-Segmentierung

In den letzten Jahren haben wir den Erfolg des Deep Learnings in der Bilderkennung beobachtet, dank der Verfügbarkeit von groß angelegten, menschlich annotierten Datensätzen wie PASCAL VOC, ImageNet und COCO. Obwohl diese Datensätze eine breite Palette von Objektkategorien abdecken, gibt es immer noch eine erhebliche Anzahl von Objekten, die nicht enthalten sind. Ist es möglich, die gleiche Aufgabe ohne viele menschliche Annotationen durchzuführen? In dieser Arbeit interessieren wir uns für das Few-Shot-Objektsegmentierungsszenario, bei dem die Anzahl der annotierten Trainingsbeispiele auf nur fünf begrenzt ist. Um die Leistungsfähigkeit unseres Ansatzes zu evaluieren und zu validieren, haben wir einen Few-Shot-Segmentationsdatensatz namens FSS-1000 erstellt, der 1000 Objektklassen mit pixelgenauen Annotationen zur Ground-Truth-Segmentierung umfasst. Einzigartig an FSS-1000 ist, dass unser Datensatz eine beträchtliche Anzahl von Objekten enthält, die in früheren Datensätzen noch nie gesehen oder annotiert wurden, wie zum Beispiel kleine Alltagsgegenstände, Waren (merchandise), Comicfiguren (cartoon characters) und Logos. Wir bauen unser Basismodell unter Verwendung standardisierter Backbone-Netze wie VGG-16, ResNet-101 und Inception. Zu unserer Überraschung stellten wir fest, dass das Training unseres Modells von Grund auf mit FSS-1000 vergleichbare und sogar bessere Ergebnisse liefert als das Training mit Gewichten, die durch ImageNet vortrainiert wurden – ein Datensatz, der mehr als 100-mal größer ist als FSS-1000. Sowohl unser Ansatz als auch unser Datensatz sind einfach, effektiv und leicht erweiterbar zur Segmentierung neuer Objektklassen bei sehr wenigen annotierten Trainingsbeispielen. Der Datensatz ist unter https://github.com/HKUSTCV/FSS-1000 verfügbar.