MViTv2: Verbesserte Multiskalige Vision-Transformer für Klassifikation und Detektion

In diesem Paper untersuchen wir Multiscale Vision Transformers (MViTv2) als ein einheitliches Architekturprinzip für die Bild- und Videoklassifikation sowie die Objekterkennung. Wir präsentieren eine verbesserte Version von MViT, die dekomponierte relative Positionseingaben und residualle Pooling-Verbindungen integriert. Diese Architektur instanziieren wir in fünf Größen und evaluieren sie für die Klassifikation auf ImageNet, die Objekterkennung auf COCO sowie die Videoerkennung auf Kinetics, wobei sie die vorherigen Ansätze übertrifft. Darüber hinaus vergleichen wir die Pooling-Attention von MViTv2 mit Fenster-Attention-Mechanismen und zeigen, dass MViTv2 in Bezug auf Genauigkeit/Rechenleistung die letzteren übertrifft. Ohne zusätzliche Hilfsmittel erreicht MViTv2 state-of-the-art-Leistung in drei Domänen: 88,8 % Genauigkeit bei der ImageNet-Klassifikation, 58,7 boxAP bei der COCO-Objekterkennung sowie 86,1 % bei der Kinetics-400-Video-Klassifikation. Der Quellcode und die Modelle sind unter https://github.com/facebookresearch/mvit verfügbar.