HyperAIHyperAI

Command Palette

Search for a command to run...

MViTv2: Verbesserte Multiskalige Vision-Transformer für Klassifikation und Detektion

Yanghao Li Chao-Yuan Wu Haoqi Fan Karttikeya Mangalam Bo Xiong Jitendra Malik Christoph Feichtenhofer

Zusammenfassung

In diesem Paper untersuchen wir Multiscale Vision Transformers (MViTv2) als ein einheitliches Architekturprinzip für die Bild- und Videoklassifikation sowie die Objekterkennung. Wir präsentieren eine verbesserte Version von MViT, die dekomponierte relative Positionseingaben und residualle Pooling-Verbindungen integriert. Diese Architektur instanziieren wir in fünf Größen und evaluieren sie für die Klassifikation auf ImageNet, die Objekterkennung auf COCO sowie die Videoerkennung auf Kinetics, wobei sie die vorherigen Ansätze übertrifft. Darüber hinaus vergleichen wir die Pooling-Attention von MViTv2 mit Fenster-Attention-Mechanismen und zeigen, dass MViTv2 in Bezug auf Genauigkeit/Rechenleistung die letzteren übertrifft. Ohne zusätzliche Hilfsmittel erreicht MViTv2 state-of-the-art-Leistung in drei Domänen: 88,8 % Genauigkeit bei der ImageNet-Klassifikation, 58,7 boxAP bei der COCO-Objekterkennung sowie 86,1 % bei der Kinetics-400-Video-Klassifikation. Der Quellcode und die Modelle sind unter https://github.com/facebookresearch/mvit verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp