HyperAIHyperAI

Command Palette

Search for a command to run...

EVA: Die Grenzen der maskierten visuellen Repräsentationslernung im großen Maßstab erforschen

Yuxin Fang Wen Wang Binhui Xie Quan Sun Ledell Wu Xinggang Wang Tiejun Huang Xinlong Wang Yue Cao

Zusammenfassung

Wir stellen EVA vor, ein visionzentriertes Grundmodell, das die Grenzen der visuellen Darstellung in großem Maßstab unter Verwendung ausschließlich öffentlich zugänglicher Daten erforscht. EVA ist ein reiner ViT (Vision Transformer), der im Vortrainingsprozess darauf trainiert wird, maskierte, bild- und textalignierte visuelle Merkmale unter Berücksichtigung sichtbarer Bildpatches wiederherzustellen. Durch diese Vortrainingsaufgabe gelingt es uns, EVA effizient auf eine Billion Parameter zu skalieren und dabei neue Rekorde auf einer Vielzahl repräsentativer Aufgaben im Bereich der visuellen Verarbeitung zu erzielen – beispielsweise bei der Bildklassifikation, der Video-Aktionsklassifikation, Objekterkennung, Instanzsegmentierung und semantischer Segmentierung – ohne auf umfangreiche überwachte Trainingsprozesse angewiesen zu sein. Darüber hinaus beobachten wir, dass eine Skalierung von EVA quantitative Veränderungen hervorruft, die sich in qualitativen Verbesserungen der Transferlernleistung widerspiegeln, welche bei anderen Modellen nicht nachweisbar sind. Ein prominentes Beispiel hierfür ist der erhebliche Sprung bei der anspruchsvollen Instanzsegmentierung mit großer Wortschatzgröße: Unser Modell erreicht auf dem LVISv1.0-Datensatz mit über tausend Kategorien eine fast state-of-the-art-Leistung, die vergleichbar ist mit der auf dem COCO-Datensatz, der lediglich achtzig Kategorien umfasst. Abgesehen von seiner Rolle als reiner Vision-Encoder kann EVA zudem als visionzentriertes, multimodales Pivotelement fungieren, das Bilder und Text miteinander verbindet. Wir stellen fest, dass die Initialisierung des Vision-Towers eines großen CLIP-Modells mit EVA den Trainingsprozess erheblich stabilisiert und eine bessere Leistung erzielt als das Training von Grund auf – und zwar mit deutlich weniger Trainingsbeispielen und geringerem Rechenaufwand. Dies eröffnet einen neuen Ansatz zur Skalierung und Beschleunigung des kostspieligen Trainings multimodaler Grundmodelle. Um zukünftige Forschung zu unterstützen, stellen wir sämtlichen Code und die Modelle unter https://github.com/baaivision/EVA zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp