HyperAIHyperAI

Command Palette

Search for a command to run...

Erkennung von zwanzigtausend Klassen unter Verwendung von bildbasierten Labels

Xingyi Zhou extsuperscript1,2 extsuperscript* Rohit Girdhar extsuperscript1 Armand Joulin extsuperscript1 Philipp Krähenbühl extsuperscript2 Ishan Misra extsuperscript1

Zusammenfassung

Aktuelle Objekterkennungssysteme sind aufgrund der geringen Größe von Erkennungsdatensätzen begrenzt in Bezug auf ihr Wortschatzvolumen. Bildklassifizierer hingegen operieren mit viel größeren Wortschatzen, da ihre Datensätze größer und einfacher zu sammeln sind. Wir schlagen Detic vor, ein Verfahren, das die Klassifikatoren eines Detektors einfach auf Bilddaten zur Klassifizierung trainiert und so das Wortschatzvolumen der Detektoren auf zehntausende Konzepte erweitert. Im Gegensatz zu früheren Ansätzen benötigt Detic keine komplexen Zuordnungsschemata, um Bildlabels auf Grundlage der Modellvorhersagen den Bounding Boxes zuzuordnen, was es viel einfacher zu implementieren macht und es mit einer Vielzahl von Erkennungsarchitekturen und Backbones vereinbar sein lässt. Unsere Ergebnisse zeigen, dass Detic auch für Klassen ohne Bounding Box-Annotationen ausgezeichnete Detektoren liefert. Es übertrifft frühere Arbeiten sowohl bei Benchmarks für offene Vokabulare als auch bei Benchmarks für lange Schwänze (long-tail). Detic erreicht einen Anstieg von 2,4 mAP für alle Klassen und 8,3 mAP für neue Klassen im Benchmark für offene Vokabulare des LVIS-Datensatzes. Im Standard-LVIS-Benchmark erhält Detic 41,7 mAP bei der Auswertung aller Klassen oder nur seltener Klassen, wodurch die Leistungsunterschiede für Objektkategorien mit wenigen Beispielen geschlossen werden. Zum ersten Mal trainieren wir einen Detektor mit allen 21.000 Klassen des ImageNet-Datensatzes und zeigen, dass er sich auf neue Datensätze verallgemeinern lässt, ohne Feinabstimmung (finetuning) zu erfordern. Der Quellcode ist unter \url{https://github.com/facebookresearch/Detic} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp