vor 11 Tagen

ViTAE: Vision Transformer Advanced durch die Exploration intrinsischer inductiver Bias

Yufei Xu, Qiming Zhang, Jing Zhang, Dacheng Tao

Abstract

Transformers haben großes Potenzial in verschiedenen Aufgaben des maschinellen Sehens gezeigt, da sie dank des Selbst-Attention-Mechanismus eine starke Fähigkeit zur Modellierung langreichweitiger Abhängigkeiten besitzen. Dennoch behandeln Vision Transformers ein Bild als eindimensionale Folge visueller Tokens und verfügen dabei über keinen inhärenten induktiven Bias (IB) zur Modellierung lokaler visueller Strukturen sowie zur Bewältigung von Skalenvarianz. Alternativ müssen sie große Mengen an Trainingsdaten und längere Trainingszeiträume aufwenden, um diesen Bias implizit zu erlernen. In diesem Paper stellen wir einen neuen Ansatz vor: ViTAE (Vision Transformer Advanced by Exploring intrinsic IB from convolutions), der die inhärenten Vorteile der Faltung nutzt, um den induktiven Bias gezielt zu integrieren. Technisch verfügt ViTAE mehrere räumliche Pyramiden-Reduktionsmodule, die das Eingabebild durch mehrfache Faltungen mit unterschiedlichen Dilatationsraten herunterstufen und in Tokens mit reichhaltiger mehrskaliger Kontextinformation umwandeln. Auf diese Weise erlangt das Modell einen inhärenten Skaleninvarianz-Bias und ist in der Lage, robuste Merkmalsrepräsentationen für Objekte verschiedener Skalen zu lernen. Zudem ist in jeder Transformer-Schicht ein Faltungsblock parallel zum Multi-Head-Self-Attention-Modul integriert, dessen Merkmale mit denen des Self-Attention-Moduls fusioniert und anschließend in das Feed-Forward-Netzwerk eingespeist werden. Dadurch erlangt das Modell einen inhärenten Lokalitäts-Bias und kann lokale Merkmale sowie globale Abhängigkeiten gemeinsam lernen. Experimente auf ImageNet sowie auf nachgeschalteten Aufgaben belegen die Überlegenheit von ViTAE gegenüber der Baseline-Transformer-Architektur und aktuellen Ansätzen. Der Quellcode und vortrainierte Modelle werden auf GitHub verfügbar sein.