HyperAIHyperAI

Command Palette

Search for a command to run...

ViDT: Ein effizienter und wirksamer vollständig auf Transformers basierender Objektdetektor

Hwanjun Song Deqing Sun Sanghyuk Chun Varun Jampani Dongyoon Han Byeongho Heo Wonjae Kim Ming-Hsuan Yang

Zusammenfassung

Transformers verändern das Landschaftsbild der Computer Vision, insbesondere bei Erkennungsaufgaben. Detektions-Transformers sind die ersten vollständig end-to-end lernbaren Systeme für Objektdetektion, während Vision-Transformers die erste vollständig auf Transformers basierende Architektur für Bildklassifikation darstellen. In diesem Paper integrieren wir Vision- und Detektions-Transformers (ViDT), um einen effektiven und effizienten Objektdetektor zu entwickeln. ViDT führt einen neu konfigurierten Aufmerksamkeitsmodul ein, um den jüngsten Swin Transformer zu einem eigenständigen Objektdetektor zu erweitern, gefolgt von einem recheneffizienten Transformer-Decoder, der multiskalare Merkmale und ergänzende Techniken nutzt, um die Detektionsleistung signifikant zu steigern, ohne dabei erheblich mehr Rechenlast mit sich zu bringen. Ausführliche Evaluierungsergebnisse auf dem Microsoft COCO-Benchmark-Datensatz zeigen, dass ViDT im Vergleich zu bestehenden vollständig auf Transformers basierenden Objektdetektoren das beste Verhältnis aus AP und Latenz erreicht und mit 49,2 AP aufgrund seiner hohen Skalierbarkeit für große Modelle überzeugt. Wir werden den Quellcode und die trainierten Modelle unter https://github.com/naver-ai/vidt veröffentlichen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp