HyperAIHyperAI

Command Palette

Search for a command to run...

XCiT: Cross-Covariance Image Transformers

Zusammenfassung

Nach ihrem Erfolg in der Verarbeitung natürlicher Sprache haben Transformers in jüngster Zeit großes Versprechen für die Computer Vision gezeigt. Die zugrundeliegende Selbst-Attention-Operation ermöglicht globale Wechselwirkungen zwischen allen Tokens – also Wörtern oder Bildpatches – und erlaubt eine flexible Modellierung von Bilddaten jenseits der lokalen Interaktionen von Faltungsoperationen. Diese Flexibilität ist jedoch mit einer quadratischen Komplexität in Zeit und Speicher verbunden, was die Anwendung auf lange Sequenzen und hochauflösende Bilder erschwert. Wir schlagen eine „transponierte“ Variante der Selbst-Attention vor, die nicht zwischen Tokens, sondern zwischen Merkmalskanälen operiert, wobei die Wechselwirkungen auf der Kreuzkovarianzmatrix zwischen Keys und Queries basieren. Die resultierende Cross-Covariance-Attention (XCA) weist eine lineare Komplexität in der Anzahl der Tokens auf und ermöglicht eine effiziente Verarbeitung hochauflösender Bilder. Unser Cross-Covariance Image Transformer (XCiT) basiert auf XCA. Er vereint die Genauigkeit herkömmlicher Transformers mit der Skalierbarkeit von Faltungsarchitekturen. Die Wirksamkeit und Allgemeingültigkeit von XCiT wird durch exzellente Ergebnisse auf mehreren visuellen Benchmark-Datenbanken bestätigt, darunter Bildklassifizierung und selbstüberwachtes Merkmalslernen auf ImageNet-1k, Objektdetektion und Instanzsegmentierung auf COCO sowie semantische Segmentierung auf ADE20k.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp