HyperAIHyperAI
vor 3 Monaten

ViT-CoMer: Vision Transformer mit konvolutionaler Multi-Skalen-Funktionsinteraktion für dichte Vorhersagen

{Yifeng Shi†, Xin Hao∗, Feng Lv∗, Xinliang Wang∗, Chunlong Xia*}
ViT-CoMer: Vision Transformer mit konvolutionaler Multi-Skalen-Funktionsinteraktion für dichte Vorhersagen
Abstract

Obwohl der Vision Transformer (ViT) erhebliche Erfolge in der Computer Vision erzielt hat, zeigt er aufgrund des Fehlens innerer Patch-Interaktionen und der begrenzten Vielfalt von Merkmalsgrößen nur eine eingeschränkte Leistung bei dichten Vorhersageaufgaben. Die meisten bestehenden Studien konzentrieren sich auf die Entwicklung von visionspezifischen Transformers, um diese Probleme zu lösen, wodurch jedoch zusätzliche Kosten für das Vortrainieren entstehen. Daher stellen wir einen einfachen, vortrainierungsfreien und merkmalsverstärkten ViT-Backbone mit convolutionaler Multi-Skalen-Interaktion vor, namens ViT-CoMer, der eine bidirektionale Interaktion zwischen CNN und Transformer ermöglicht. Im Vergleich zu aktuellen State-of-the-Art-Methoden bietet ViT-CoMer folgende Vorteile: (1) Wir integrieren räumliche Pyramiden-Multi-Rezeptivfeld-convolutionale Merkmale in die ViT-Architektur, was die Probleme der begrenzten lokalen Informationsinteraktion und der einheitlichen Merkmalsrepräsentation im ViT wirksam lindert. (2) Wir schlagen ein einfaches und effizientes bidirektionales Fusion-Interaktionsmodul zwischen CNN und Transformer vor, das eine Multi-Skalen-Fusion über hierarchische Merkmale ermöglicht und somit die Bewältigung dichter Vorhersageaufgaben verbessert. (3) Wir evaluieren die Leistung von ViT-CoMer an verschiedenen dichten Vorhersageaufgaben, unterschiedlichen Architekturen und mehreren fortschrittlichen Vortrainingsansätzen. Insbesondere erreicht unser ViT-CoMer-L eine AP von 64,3 % auf COCO val2017 ohne zusätzliche Trainingsdaten und eine mIoU von 62,1 % auf ADE20K val – beide Werte sind mit den besten derzeit verfügbaren Methoden vergleichbar. Wir hoffen, dass ViT-CoMer als neuer Backbone für dichte Vorhersageaufgaben zukünftige Forschung fördern wird. Der Quellcode wird unter https://github.com/Traffic-X/ViT-CoMer veröffentlicht.