vor 17 Tagen

Multiscale Vision Transformers

Haoqi Fan, Bo Xiong, Karttikeya Mangalam, Yanghao Li, Zhicheng Yan, Jitendra Malik, Christoph Feichtenhofer

Abstract

Wir stellen Multiscale Vision Transformers (MViT) für die Video- und Bilderkennung vor, indem wir die grundlegende Idee hierarchischer multiskaliger Merkmalsstrukturen mit Transformer-Modellen verbinden. Multiscale-Transformer weisen mehrere Stufen mit unterschiedlichen Kanal- und Auflösungsgraden auf. Beginnend mit der Eingabegröße und einer geringen Kanalanzahl erweitern die Stufen hierarchisch die Kanalkapazität, während gleichzeitig die räumliche Auflösung reduziert wird. Dadurch entsteht eine multiskalige Merkmalspyramide, bei der die frühen Schichten mit hoher räumlicher Auflösung einfache, niedrigstufige visuelle Informationen modellieren, während tiefere Schichten mit räumlich grober, aber komplexer, hochdimensionaler Information arbeiten. Wir evaluieren diese grundlegende architektonische Priorität zur Modellierung der dichten Natur visueller Signale anhand verschiedener Videoerkennungsaufgaben, wobei unser Ansatz gegenüber gleichzeitigen Vision-Transformer-Modellen, die auf umfangreiche externe Vortrainingsdaten angewiesen sind und zwischen 5- und 10-fach mehr Rechenleistung sowie Parameter erfordern, übertrifft. Zudem entfernen wir die zeitliche Dimension und wenden unser Modell auf die Bildklassifikation an, wo es gegenüber vorhergehenden Arbeiten auf Basis von Vision-Transformern herausragt. Der Quellcode ist unter folgender Adresse verfügbar: https://github.com/facebookresearch/SlowFast