HyperAIHyperAI

Command Palette

Search for a command to run...

ViTAE: Vision Transformer Advanced durch die Exploration intrinsischer inductiver Bias

Yufei Xu Qiming Zhang Jing Zhang Dacheng Tao

Zusammenfassung

Transformers haben großes Potenzial in verschiedenen Aufgaben des maschinellen Sehens gezeigt, da sie dank des Selbst-Attention-Mechanismus eine starke Fähigkeit zur Modellierung langreichweitiger Abhängigkeiten besitzen. Dennoch behandeln Vision Transformers ein Bild als eindimensionale Folge visueller Tokens und verfügen dabei über keinen inhärenten induktiven Bias (IB) zur Modellierung lokaler visueller Strukturen sowie zur Bewältigung von Skalenvarianz. Alternativ müssen sie große Mengen an Trainingsdaten und längere Trainingszeiträume aufwenden, um diesen Bias implizit zu erlernen. In diesem Paper stellen wir einen neuen Ansatz vor: ViTAE (Vision Transformer Advanced by Exploring intrinsic IB from convolutions), der die inhärenten Vorteile der Faltung nutzt, um den induktiven Bias gezielt zu integrieren. Technisch verfügt ViTAE mehrere räumliche Pyramiden-Reduktionsmodule, die das Eingabebild durch mehrfache Faltungen mit unterschiedlichen Dilatationsraten herunterstufen und in Tokens mit reichhaltiger mehrskaliger Kontextinformation umwandeln. Auf diese Weise erlangt das Modell einen inhärenten Skaleninvarianz-Bias und ist in der Lage, robuste Merkmalsrepräsentationen für Objekte verschiedener Skalen zu lernen. Zudem ist in jeder Transformer-Schicht ein Faltungsblock parallel zum Multi-Head-Self-Attention-Modul integriert, dessen Merkmale mit denen des Self-Attention-Moduls fusioniert und anschließend in das Feed-Forward-Netzwerk eingespeist werden. Dadurch erlangt das Modell einen inhärenten Lokalitäts-Bias und kann lokale Merkmale sowie globale Abhängigkeiten gemeinsam lernen. Experimente auf ImageNet sowie auf nachgeschalteten Aufgaben belegen die Überlegenheit von ViTAE gegenüber der Baseline-Transformer-Architektur und aktuellen Ansätzen. Der Quellcode und vortrainierte Modelle werden auf GitHub verfügbar sein.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ViTAE: Vision Transformer Advanced durch die Exploration intrinsischer inductiver Bias | Paper | HyperAI