HyperAIHyperAI

Command Palette

Search for a command to run...

Untersuche die Grenzen der omni-modalen Vortrainings bei Skalierung

Yiyuan Zhang Handong Li Jing Liu Xiangyu Yue

Zusammenfassung

Wir schlagen vor, eine omni-modale Intelligenz zu entwickeln, die in der Lage ist, jede Modalität zu verstehen und universelle Darstellungen zu erlernen. Konkret stellen wir einen skalierbaren Vortrainingsparadigma namens Multimodal Context (MiCo) vor, das es ermöglicht, die Anzahl der Modalitäten, die Menge an Daten sowie die Anzahl der Modellparameter im Vortrainingsprozess zu erhöhen. Mit MiCo zeigen die vortrainierten Modelle signifikante emergente Fähigkeiten im multimodalen Lernen, die an folgenden Aufgaben evaluiert wurden: i) Benchmark-Aufgaben zur Einzelmodalitäts-Wahrnehmung an 10 unterschiedlichen Modalitäten, ii) 25 Aufgaben zur Cross-Modal-Verständnis-Fähigkeit im Bereich Retrieval, Frage-Antwort, Captioning und iii) 18 Benchmarks für multimodale große Sprachmodelle. Unsere Modelle setzen 37 neue Rekorde für die Stand der Technik. Wir hoffen, dass unsere Forschung zur Entwicklung omni-modaler Intelligenz beitragen kann. Code und Modelle sind verfügbar unter: https://github.com/invictus717/MiCo


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Untersuche die Grenzen der omni-modalen Vortrainings bei Skalierung | Paper | HyperAI