Erkennung von zwanzigtausend Klassen unter Verwendung von bildbasierten Labels

Aktuelle Objekterkennungssysteme sind aufgrund der geringen Größe von Erkennungsdatensätzen begrenzt in Bezug auf ihr Wortschatzvolumen. Bildklassifizierer hingegen operieren mit viel größeren Wortschatzen, da ihre Datensätze größer und einfacher zu sammeln sind. Wir schlagen Detic vor, ein Verfahren, das die Klassifikatoren eines Detektors einfach auf Bilddaten zur Klassifizierung trainiert und so das Wortschatzvolumen der Detektoren auf zehntausende Konzepte erweitert. Im Gegensatz zu früheren Ansätzen benötigt Detic keine komplexen Zuordnungsschemata, um Bildlabels auf Grundlage der Modellvorhersagen den Bounding Boxes zuzuordnen, was es viel einfacher zu implementieren macht und es mit einer Vielzahl von Erkennungsarchitekturen und Backbones vereinbar sein lässt. Unsere Ergebnisse zeigen, dass Detic auch für Klassen ohne Bounding Box-Annotationen ausgezeichnete Detektoren liefert. Es übertrifft frühere Arbeiten sowohl bei Benchmarks für offene Vokabulare als auch bei Benchmarks für lange Schwänze (long-tail). Detic erreicht einen Anstieg von 2,4 mAP für alle Klassen und 8,3 mAP für neue Klassen im Benchmark für offene Vokabulare des LVIS-Datensatzes. Im Standard-LVIS-Benchmark erhält Detic 41,7 mAP bei der Auswertung aller Klassen oder nur seltener Klassen, wodurch die Leistungsunterschiede für Objektkategorien mit wenigen Beispielen geschlossen werden. Zum ersten Mal trainieren wir einen Detektor mit allen 21.000 Klassen des ImageNet-Datensatzes und zeigen, dass er sich auf neue Datensätze verallgemeinern lässt, ohne Feinabstimmung (finetuning) zu erfordern. Der Quellcode ist unter \url{https://github.com/facebookresearch/Detic} verfügbar.