HyperAIHyperAI
vor 7 Tagen

Vision Transformer Adapter für dichte Vorhersagen

Zhe Chen, Yuchen Duan, Wenhai Wang, Junjun He, Tong Lu, Jifeng Dai, Yu Qiao
Vision Transformer Adapter für dichte Vorhersagen
Abstract

Diese Arbeit untersucht einen einfachen, jedoch leistungsfähigen Adapter für dichte Vorhersageaufgaben im Kontext von Vision Transformers (ViT). Im Gegensatz zu kürzlich vorgestellten Varianten, die spezifische visuelle induktive Voraussetzungen in ihre Architektur integrieren, leidet der reine ViT aufgrund schwacher vorheriger Annahmen unterdurchschnittlich bei dichten Vorhersagen. Um dieses Problem anzugehen, schlagen wir den ViT-Adapter vor, der es ermöglicht, dass der reine ViT Leistungen erreicht, die mit jenen spezialisierter Transformer-Modelle vergleichbar sind. Konkret basiert der Kern unserer Architektur auf einem reinen ViT, der leistungsfähige Repräsentationen aus großskaligen, multimodalen Datensätzen lernen kann. Bei der Übertragung auf nachgeschaltete Aufgaben wird ein vortrainingsfreier Adapter eingesetzt, um bildbezogene induktive Voraussetzungen in das Modell einzuführen und es somit für diese Aufgaben geeignet zu machen. Wir validieren den ViT-Adapter an mehreren Aufgaben mit dichten Vorhersagen, darunter Objektdetektion, Instanzsegmentierung und semantische Segmentierung. Insbesondere erreicht unser ViT-Adapter-L ohne Verwendung zusätzlicher Detektionsdaten eine state-of-the-art-Leistung von 60,9 Box AP und 53,0 Mask AP auf dem COCO Test-Dev-Set. Wir hoffen, dass der ViT-Adapter als Alternative zu spezifischen visuellen Transformers dienen und zukünftige Forschung fördern kann. Der Quellcode und die Modelle werden unter https://github.com/czczup/ViT-Adapter veröffentlicht.

Vision Transformer Adapter für dichte Vorhersagen | Neueste Forschungsarbeiten | HyperAI