HyperAIHyperAI

Command Palette

Search for a command to run...

ViT-CoMer: Vision Transformer mit konvolutionaler Multi-Skalen-Funktionsinteraktion für dichte Vorhersagen

Yifeng Shi† Xin Hao∗ Feng Lv∗ Xinliang Wang∗ Chunlong Xia*

Zusammenfassung

Obwohl der Vision Transformer (ViT) erhebliche Erfolge in der Computer Vision erzielt hat, zeigt er aufgrund des Fehlens innerer Patch-Interaktionen und der begrenzten Vielfalt von Merkmalsgrößen nur eine eingeschränkte Leistung bei dichten Vorhersageaufgaben. Die meisten bestehenden Studien konzentrieren sich auf die Entwicklung von visionspezifischen Transformers, um diese Probleme zu lösen, wodurch jedoch zusätzliche Kosten für das Vortrainieren entstehen. Daher stellen wir einen einfachen, vortrainierungsfreien und merkmalsverstärkten ViT-Backbone mit convolutionaler Multi-Skalen-Interaktion vor, namens ViT-CoMer, der eine bidirektionale Interaktion zwischen CNN und Transformer ermöglicht. Im Vergleich zu aktuellen State-of-the-Art-Methoden bietet ViT-CoMer folgende Vorteile: (1) Wir integrieren räumliche Pyramiden-Multi-Rezeptivfeld-convolutionale Merkmale in die ViT-Architektur, was die Probleme der begrenzten lokalen Informationsinteraktion und der einheitlichen Merkmalsrepräsentation im ViT wirksam lindert. (2) Wir schlagen ein einfaches und effizientes bidirektionales Fusion-Interaktionsmodul zwischen CNN und Transformer vor, das eine Multi-Skalen-Fusion über hierarchische Merkmale ermöglicht und somit die Bewältigung dichter Vorhersageaufgaben verbessert. (3) Wir evaluieren die Leistung von ViT-CoMer an verschiedenen dichten Vorhersageaufgaben, unterschiedlichen Architekturen und mehreren fortschrittlichen Vortrainingsansätzen. Insbesondere erreicht unser ViT-CoMer-L eine AP von 64,3 % auf COCO val2017 ohne zusätzliche Trainingsdaten und eine mIoU von 62,1 % auf ADE20K val – beide Werte sind mit den besten derzeit verfügbaren Methoden vergleichbar. Wir hoffen, dass ViT-CoMer als neuer Backbone für dichte Vorhersageaufgaben zukünftige Forschung fördern wird. Der Quellcode wird unter https://github.com/Traffic-X/ViT-CoMer veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp