Command Palette
Search for a command to run...
Untersuche die Grenzen der omni-modalen Vortrainings bei Skalierung
Untersuche die Grenzen der omni-modalen Vortrainings bei Skalierung
Yiyuan Zhang Handong Li Jing Liu Xiangyu Yue
Zusammenfassung
Wir schlagen vor, eine omni-modale Intelligenz zu entwickeln, die in der Lage ist, jede Modalität zu verstehen und universelle Darstellungen zu erlernen. Konkret stellen wir einen skalierbaren Vortrainingsparadigma namens Multimodal Context (MiCo) vor, das es ermöglicht, die Anzahl der Modalitäten, die Menge an Daten sowie die Anzahl der Modellparameter im Vortrainingsprozess zu erhöhen. Mit MiCo zeigen die vortrainierten Modelle signifikante emergente Fähigkeiten im multimodalen Lernen, die an folgenden Aufgaben evaluiert wurden: i) Benchmark-Aufgaben zur Einzelmodalitäts-Wahrnehmung an 10 unterschiedlichen Modalitäten, ii) 25 Aufgaben zur Cross-Modal-Verständnis-Fähigkeit im Bereich Retrieval, Frage-Antwort, Captioning und iii) 18 Benchmarks für multimodale große Sprachmodelle. Unsere Modelle setzen 37 neue Rekorde für die Stand der Technik. Wir hoffen, dass unsere Forschung zur Entwicklung omni-modaler Intelligenz beitragen kann. Code und Modelle sind verfügbar unter: https://github.com/invictus717/MiCo