HyperAIHyperAI
vor 11 Tagen

Sparse R-CNN: End-to-End-Objekterkennung mit lernbaren Vorschlägen

Peize Sun, Rufeng Zhang, Yi Jiang, Tao Kong, Chenfeng Xu, Wei Zhan, Masayoshi Tomizuka, Lei Li, Zehuan Yuan, Changhu Wang, Ping Luo
Sparse R-CNN: End-to-End-Objekterkennung mit lernbaren Vorschlägen
Abstract

Wir präsentieren Sparse R-CNN, eine rein sparsame Methode für die Objekterkennung in Bildern. Bestehende Ansätze zur Objekterkennung stützen sich stark auf dichte Objektkandidaten, beispielsweise $k$ vordefinierte Anchor-Boxen, die auf allen Gitterpunkten einer Bildmerkmalskarte der Größe $H \times W$ vorgegeben sind. In unserer Methode hingegen wird dem Objekterkennungskopf eine feste, sparsame Menge an gelernten Objektvorschlägen mit insgesamt $N$ Elementen zur Verfügung gestellt, um Klassifikation und Lokalisierung durchzuführen. Durch die Eliminierung der $HWk$ (bis zu Hunderttausenden) handgezeichneten Objektkandidaten zugunsten von $N$ (z. B. 100) lernbaren Vorschlägen vermeidet Sparse R-CNN vollständig alle Anstrengungen im Zusammenhang mit der Gestaltung von Objektkandidaten sowie die mehr-zu-eins-Zuordnung von Labels. Vor allem ist die endgültige Vorhersage direkt ohne nachgeschaltete Nicht-Maximum-Suppression (NMS) zu erzeugen. Sparse R-CNN erreicht auf dem anspruchsvollen COCO-Datensatz eine Genauigkeit, Laufzeit und Trainingskonvergenz, die mit etablierten Baselines vergleichbar sind, beispielsweise 45,0 AP im Standard-$3\times$-Trainingsplan und eine Geschwindigkeit von 22 fps unter Verwendung des ResNet-50 FPN-Modells. Wir hoffen, dass unsere Arbeit die etablierte Praxis der Verwendung dichter Vorkenntnisse in Objekterkennern neu überdenken lässt. Der Quellcode ist verfügbar unter: https://github.com/PeizeSun/SparseR-CNN.

Sparse R-CNN: End-to-End-Objekterkennung mit lernbaren Vorschlägen | Neueste Forschungsarbeiten | HyperAI