vor 17 Tagen

EVA: Die Grenzen der maskierten visuellen Repräsentationslernung im großen Maßstab erforschen

Yuxin Fang, Wen Wang, Binhui Xie, Quan Sun, Ledell Wu, Xinggang Wang, Tiejun Huang, Xinlong Wang, Yue Cao

Abstract

Wir stellen EVA vor, ein visionzentriertes Grundmodell, das die Grenzen der visuellen Darstellung in großem Maßstab unter Verwendung ausschließlich öffentlich zugänglicher Daten erforscht. EVA ist ein reiner ViT (Vision Transformer), der im Vortrainingsprozess darauf trainiert wird, maskierte, bild- und textalignierte visuelle Merkmale unter Berücksichtigung sichtbarer Bildpatches wiederherzustellen. Durch diese Vortrainingsaufgabe gelingt es uns, EVA effizient auf eine Billion Parameter zu skalieren und dabei neue Rekorde auf einer Vielzahl repräsentativer Aufgaben im Bereich der visuellen Verarbeitung zu erzielen – beispielsweise bei der Bildklassifikation, der Video-Aktionsklassifikation, Objekterkennung, Instanzsegmentierung und semantischer Segmentierung – ohne auf umfangreiche überwachte Trainingsprozesse angewiesen zu sein. Darüber hinaus beobachten wir, dass eine Skalierung von EVA quantitative Veränderungen hervorruft, die sich in qualitativen Verbesserungen der Transferlernleistung widerspiegeln, welche bei anderen Modellen nicht nachweisbar sind. Ein prominentes Beispiel hierfür ist der erhebliche Sprung bei der anspruchsvollen Instanzsegmentierung mit großer Wortschatzgröße: Unser Modell erreicht auf dem LVISv1.0-Datensatz mit über tausend Kategorien eine fast state-of-the-art-Leistung, die vergleichbar ist mit der auf dem COCO-Datensatz, der lediglich achtzig Kategorien umfasst. Abgesehen von seiner Rolle als reiner Vision-Encoder kann EVA zudem als visionzentriertes, multimodales Pivotelement fungieren, das Bilder und Text miteinander verbindet. Wir stellen fest, dass die Initialisierung des Vision-Towers eines großen CLIP-Modells mit EVA den Trainingsprozess erheblich stabilisiert und eine bessere Leistung erzielt als das Training von Grund auf – und zwar mit deutlich weniger Trainingsbeispielen und geringerem Rechenaufwand. Dies eröffnet einen neuen Ansatz zur Skalierung und Beschleunigung des kostspieligen Trainings multimodaler Grundmodelle. Um zukünftige Forschung zu unterstützen, stellen wir sämtlichen Code und die Modelle unter https://github.com/baaivision/EVA zur Verfügung.