HyperAIHyperAI

Command Palette

Search for a command to run...

InternVL: Skalierung von Visuellen Grundmodellen und Anpassung für Generische visuelle-linguistische Aufgaben

Zusammenfassung

Das exponentielle Wachstum großer Sprachmodelle (LLMs) hat zahlreiche Möglichkeiten für multimodale AGI-Systeme eröffnet. Allerdings konnte der Fortschritt bei visuellen und visuell-sprachlichen Grundmodellen, die ebenfalls entscheidende Bestandteile multimodaler AGI sind, nicht mit dem Tempo der LLMs Schritt halten. In dieser Arbeit entwerfen wir ein groß angelegtes visuell-sprachliches Grundmodell (InternVL), das das visuelle Grundmodell auf 6 Milliarden Parameter skaliert und es schrittweise mit dem LLM ausrichtt, indem es webbasierte Bild-Text-Daten aus verschiedenen Quellen verwendet. Dieses Modell kann auf 32 generische visuell-sprachliche Benchmarks breit angewendet werden und bietet dort den aktuellen Stand der Technik, einschließlich visueller Wahrnehmungsaufgaben wie bildweiser oder pixelweiser Erkennung, visuell-sprachlichen Aufgaben wie zero-shot-Bild-/Video-Klassifizierung, zero-shot-Bild-/Video-Text-Retrieval und der Verknüpfung mit LLMs zur Erstellung multimodaler Dialogsysteme. Es verfügt über leistungsstarke visuelle Fähigkeiten und kann eine gute Alternative zu ViT-22B sein. Wir hoffen, dass unsere Forschung zum Fortschritt multimodaler Großmodelle beitragen kann. Der Code und die Modelle sind unter https://github.com/OpenGVLab/InternVL verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp