Deformable DETR: Deformable Transformers für end-to-end Objekterkennung

DETR wurde kürzlich vorgeschlagen, um die Notwendigkeit vieler handkodierter Komponenten im Objektdetektionsprozess zu beseitigen, während gleichzeitig eine gute Leistung erzielt wird. Allerdings leidet es unter langsamer Konvergenz und begrenzter räumlicher Auflösung der Merkmale, was auf die Einschränkungen der Transformer-Attention-Module bei der Verarbeitung von Bildmerkmalskarten zurückzuführen ist. Um diese Probleme zu mildern, schlagen wir Deformable DETR vor, dessen Attention-Module sich nur auf eine kleine Menge von Schlüssel-Sampling-Punkten in der Nähe eines Referenzpunkts konzentrieren. Deformable DETR erreicht eine bessere Leistung als DETR (insbesondere bei kleinen Objekten) bei nur zehnmal weniger Trainings-Epochen. Umfangreiche Experimente auf der COCO-Benchmark bestätigen die Wirksamkeit unseres Ansatzes. Der Quellcode ist unter https://github.com/fundamentalvision/Deformable-DETR verfügbar.