HyperAIHyperAI
vor 18 Tagen

XCiT: Cross-Covariance Image Transformers

Alaaeldin El-Nouby, Hugo Touvron, Mathilde Caron, Piotr Bojanowski, Matthijs Douze, Armand Joulin, Ivan Laptev, Natalia Neverova, Gabriel Synnaeve, Jakob Verbeek, Hervé Jegou
XCiT: Cross-Covariance Image Transformers
Abstract

Nach ihrem Erfolg in der Verarbeitung natürlicher Sprache haben Transformers in jüngster Zeit großes Versprechen für die Computer Vision gezeigt. Die zugrundeliegende Selbst-Attention-Operation ermöglicht globale Wechselwirkungen zwischen allen Tokens – also Wörtern oder Bildpatches – und erlaubt eine flexible Modellierung von Bilddaten jenseits der lokalen Interaktionen von Faltungsoperationen. Diese Flexibilität ist jedoch mit einer quadratischen Komplexität in Zeit und Speicher verbunden, was die Anwendung auf lange Sequenzen und hochauflösende Bilder erschwert. Wir schlagen eine „transponierte“ Variante der Selbst-Attention vor, die nicht zwischen Tokens, sondern zwischen Merkmalskanälen operiert, wobei die Wechselwirkungen auf der Kreuzkovarianzmatrix zwischen Keys und Queries basieren. Die resultierende Cross-Covariance-Attention (XCA) weist eine lineare Komplexität in der Anzahl der Tokens auf und ermöglicht eine effiziente Verarbeitung hochauflösender Bilder. Unser Cross-Covariance Image Transformer (XCiT) basiert auf XCA. Er vereint die Genauigkeit herkömmlicher Transformers mit der Skalierbarkeit von Faltungsarchitekturen. Die Wirksamkeit und Allgemeingültigkeit von XCiT wird durch exzellente Ergebnisse auf mehreren visuellen Benchmark-Datenbanken bestätigt, darunter Bildklassifizierung und selbstüberwachtes Merkmalslernen auf ImageNet-1k, Objektdetektion und Instanzsegmentierung auf COCO sowie semantische Segmentierung auf ADE20k.

XCiT: Cross-Covariance Image Transformers | Neueste Forschungsarbeiten | HyperAI