ViDT: Ein effizienter und wirksamer vollständig auf Transformers basierender Objektdetektor

Transformers verändern das Landschaftsbild der Computer Vision, insbesondere bei Erkennungsaufgaben. Detektions-Transformers sind die ersten vollständig end-to-end lernbaren Systeme für Objektdetektion, während Vision-Transformers die erste vollständig auf Transformers basierende Architektur für Bildklassifikation darstellen. In diesem Paper integrieren wir Vision- und Detektions-Transformers (ViDT), um einen effektiven und effizienten Objektdetektor zu entwickeln. ViDT führt einen neu konfigurierten Aufmerksamkeitsmodul ein, um den jüngsten Swin Transformer zu einem eigenständigen Objektdetektor zu erweitern, gefolgt von einem recheneffizienten Transformer-Decoder, der multiskalare Merkmale und ergänzende Techniken nutzt, um die Detektionsleistung signifikant zu steigern, ohne dabei erheblich mehr Rechenlast mit sich zu bringen. Ausführliche Evaluierungsergebnisse auf dem Microsoft COCO-Benchmark-Datensatz zeigen, dass ViDT im Vergleich zu bestehenden vollständig auf Transformers basierenden Objektdetektoren das beste Verhältnis aus AP und Latenz erreicht und mit 49,2 AP aufgrund seiner hohen Skalierbarkeit für große Modelle überzeugt. Wir werden den Quellcode und die trainierten Modelle unter https://github.com/naver-ai/vidt veröffentlichen.