vor 11 Tagen

Sparse R-CNN: End-to-End-Objekterkennung mit lernbaren Vorschlägen

Peize Sun, Rufeng Zhang, Yi Jiang, Tao Kong, Chenfeng Xu, Wei Zhan, Masayoshi Tomizuka, Lei Li, Zehuan Yuan, Changhu Wang, Ping Luo

Details der Forschungsarbeit anzeigen

Sparse R-CNN: End-to-End-Objekterkennung mit lernbaren Vorschlägen

Abstract

Wir präsentieren Sparse R-CNN, eine rein sparsame Methode für die Objekterkennung in Bildern. Bestehende Ansätze zur Objekterkennung stützen sich stark auf dichte Objektkandidaten, beispielsweise $k$ vordefinierte Anchor-Boxen, die auf allen Gitterpunkten einer Bildmerkmalskarte der Größe $H \times W$ vorgegeben sind. In unserer Methode hingegen wird dem Objekterkennungskopf eine feste, sparsame Menge an gelernten Objektvorschlägen mit insgesamt $N$ Elementen zur Verfügung gestellt, um Klassifikation und Lokalisierung durchzuführen. Durch die Eliminierung der $HWk$ (bis zu Hunderttausenden) handgezeichneten Objektkandidaten zugunsten von $N$ (z. B. 100) lernbaren Vorschlägen vermeidet Sparse R-CNN vollständig alle Anstrengungen im Zusammenhang mit der Gestaltung von Objektkandidaten sowie die mehr-zu-eins-Zuordnung von Labels. Vor allem ist die endgültige Vorhersage direkt ohne nachgeschaltete Nicht-Maximum-Suppression (NMS) zu erzeugen. Sparse R-CNN erreicht auf dem anspruchsvollen COCO-Datensatz eine Genauigkeit, Laufzeit und Trainingskonvergenz, die mit etablierten Baselines vergleichbar sind, beispielsweise 45,0 AP im Standard-$3\times$-Trainingsplan und eine Geschwindigkeit von 22 fps unter Verwendung des ResNet-50 FPN-Modells. Wir hoffen, dass unsere Arbeit die etablierte Praxis der Verwendung dichter Vorkenntnisse in Objekterkennern neu überdenken lässt. Der Quellcode ist verfügbar unter: https://github.com/PeizeSun/SparseR-CNN.