HyperAIHyperAI
vor 8 Tagen

GiT: Hin zum Generalisten-Vision-Transformer durch eine universelle Sprach-Schnittstelle

Haiyang Wang, Hao Tang, Li Jiang, Shaoshuai Shi, Muhammad Ferjad Naeem, Hongsheng Li, Bernt Schiele, Liwei Wang
GiT: Hin zum Generalisten-Vision-Transformer durch eine universelle Sprach-Schnittstelle
Abstract

Diese Arbeit präsentiert einen einfachen, jedoch wirksamen Rahmenwerkansatz namens GiT, der gleichzeitig für verschiedene visuelle Aufgaben nutzbar ist und ausschließlich auf einem herkömmlichen ViT (Vision Transformer) basiert. Ausgehend von der Universalität der Multi-Layer-Transformer-Architektur – wie sie beispielsweise in großen Sprachmodellen (LLMs) wie GPT weit verbreitet ist – streben wir danach, deren Anwendungsbereich zu erweitern, um ein leistungsfähiges Vision-Foundation-Modell (VFM) zu schaffen. Im Gegensatz zur Sprachmodellierung erfordern visuelle Aufgaben jedoch typischerweise spezifische Module, wie z. B. Bounding-Box-Head-Module für die Objektdetektion oder Pixel-Decoder für die Segmentierung, was die Anwendung leistungsfähiger Multi-Layer-Transformer im Bereich der Computer Vision erheblich einschränkt. Um dieses Problem zu lösen, entwerfen wir eine universelle Sprach-Schnittstelle, die eine erfolgreiche autoregressive Dekodierung ermöglicht und somit verschiedene visuelle Aufgaben – von der Bild-ebenen-Verständnis (z. B. Bildbeschreibung), über spärliche Wahrnehmung (z. B. Detektion) bis hin zu dichten Vorhersagen (z. B. Segmentierung) – effektiv vereint. Auf Basis dieser Konzepte besteht das gesamte Modell ausschließlich aus einem ViT, ohne zusätzliche spezifische Komponenten, was eine bemerkenswerte Vereinfachung der Architektur darstellt. GiT ist ein Multi-Task-Vision-Modell, das gemeinsam auf fünf repräsentativen Benchmarks trainiert wird, ohne aufgabenbezogene Feinabstimmung. Interessanterweise erreicht unser GiT eine neue Benchmark im Bereich der Generalist-Leistung und fördert eine wechselseitige Verbesserung zwischen den Aufgaben, was zu signifikanten Verbesserungen im Vergleich zu isoliertem Training führt – ein Phänomen, das auch bei LLMs beobachtet wird. Durch die Erweiterung des Trainings auf insgesamt 27 Datensätze erzielt GiT starke Zero-Shot-Ergebnisse über eine Vielzahl von Aufgaben. Aufgrund seiner einfachen Architektur bietet dieses Paradigma großes Potenzial, die architektonische Kluft zwischen Vision und Sprache zu verringern. Der Quellcode und die Modelle werden unter \url{https://github.com/Haiyang-W/GiT} verfügbar sein.