Command Palette
Search for a command to run...
Sparse R-CNN: End-to-End-Objekterkennung mit lernbaren Vorschlägen
Sparse R-CNN: End-to-End-Objekterkennung mit lernbaren Vorschlägen
Zusammenfassung
Wir präsentieren Sparse R-CNN, eine rein sparsame Methode für die Objekterkennung in Bildern. Bestehende Ansätze zur Objekterkennung stützen sich stark auf dichte Objektkandidaten, beispielsweise k vordefinierte Anchor-Boxen, die auf allen Gitterpunkten einer Bildmerkmalskarte der Größe H×W vorgegeben sind. In unserer Methode hingegen wird dem Objekterkennungskopf eine feste, sparsame Menge an gelernten Objektvorschlägen mit insgesamt N Elementen zur Verfügung gestellt, um Klassifikation und Lokalisierung durchzuführen. Durch die Eliminierung der HWk (bis zu Hunderttausenden) handgezeichneten Objektkandidaten zugunsten von N (z. B. 100) lernbaren Vorschlägen vermeidet Sparse R-CNN vollständig alle Anstrengungen im Zusammenhang mit der Gestaltung von Objektkandidaten sowie die mehr-zu-eins-Zuordnung von Labels. Vor allem ist die endgültige Vorhersage direkt ohne nachgeschaltete Nicht-Maximum-Suppression (NMS) zu erzeugen. Sparse R-CNN erreicht auf dem anspruchsvollen COCO-Datensatz eine Genauigkeit, Laufzeit und Trainingskonvergenz, die mit etablierten Baselines vergleichbar sind, beispielsweise 45,0 AP im Standard-3×-Trainingsplan und eine Geschwindigkeit von 22 fps unter Verwendung des ResNet-50 FPN-Modells. Wir hoffen, dass unsere Arbeit die etablierte Praxis der Verwendung dichter Vorkenntnisse in Objekterkennern neu überdenken lässt. Der Quellcode ist verfügbar unter: https://github.com/PeizeSun/SparseR-CNN.