vor 9 Monaten

Yiyuan Zhang Handong Li Jing Liu Xiangyu Yue

Zusammenfassung

Wir schlagen vor, eine omni-modale Intelligenz zu entwickeln, die in der Lage ist, jede Modalität zu verstehen und universelle Darstellungen zu erlernen. Konkret stellen wir einen skalierbaren Vortrainingsparadigma namens Multimodal Context (MiCo) vor, das es ermöglicht, die Anzahl der Modalitäten, die Menge an Daten sowie die Anzahl der Modellparameter im Vortrainingsprozess zu erhöhen. Mit MiCo zeigen die vortrainierten Modelle signifikante emergente Fähigkeiten im multimodalen Lernen, die an folgenden Aufgaben evaluiert wurden: i) Benchmark-Aufgaben zur Einzelmodalitäts-Wahrnehmung an 10 unterschiedlichen Modalitäten, ii) 25 Aufgaben zur Cross-Modal-Verständnis-Fähigkeit im Bereich Retrieval, Frage-Antwort, Captioning und iii) 18 Benchmarks für multimodale große Sprachmodelle. Unsere Modelle setzen 37 neue Rekorde für die Stand der Technik. Wir hoffen, dass unsere Forschung zur Entwicklung omni-modaler Intelligenz beitragen kann. Code und Modelle sind verfügbar unter: https://github.com/invictus717/MiCo

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

vor 9 Monaten

Multimodale Darstellung

Any-to-Any

Tiefes Lernen

Yiyuan Zhang Handong Li Jing Liu Xiangyu Yue

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

vor 9 Monaten

Multimodale Darstellung

Any-to-Any

Tiefes Lernen

Yiyuan Zhang Handong Li Jing Liu Xiangyu Yue

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Untersuche die Grenzen der omni-modalen Vortrainings bei Skalierung | Paper | HyperAI

Command Palette

Untersuche die Grenzen der omni-modalen Vortrainings bei Skalierung

Yiyuan Zhang Handong Li Jing Liu Xiangyu Yue

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Untersuche die Grenzen der omni-modalen Vortrainings bei Skalierung

Yiyuan Zhang Handong Li Jing Liu Xiangyu Yue

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Untersuche die Grenzen der omni-modalen Vortrainings bei Skalierung

Yiyuan Zhang Handong Li Jing Liu Xiangyu Yue

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters