Emu: Generatives Vortraining in der Multimodalität

Wir präsentieren Emu, ein auf dem Transformer basierendes multimodales Grundmodell, das in der Lage ist, Bilder und Texte in einem multimodalen Kontext nahtlos zu generieren. Dieses allumfassende Modell kann jede Art von unimodalem oder multimodalem Dateninput ohne Unterscheidung verarbeiten (z.B. abwechselnde Bilder, Text und Video) durch einen einheitlichen autoregressiven Trainingsprozess. Zunächst werden visuelle Signale in Einbettungen kodiert und zusammen mit Texttokens zu einer abwechselnden Eingabe-Sequenz formiert. Emu wird dann von Anfang bis Ende mit einem vereinten Ziel trainiert, das darin besteht, den nächsten Texttoken zu klassifizieren oder die nächste visuelle Einbettung in der multimodalen Sequenz zu regressieren. Diese vielseitige Multimodalität ermöglicht es, umfangreiche Quellen für die Vortrainierung von Daten im großen Maßstab zu erforschen, wie z.B. Videos mit abwechselnden Bildern und Text, Webseiten mit abwechselnden Bildern und Text sowie bild-text- und video-text-Paare im Webmaßstab. Emu kann als allgemeines multimodales Interface sowohl für Aufgaben des Bild-zu-Text- als auch des Text-zu-Bild-Umsetzungsprozesses dienen und unterstützt die Generierung von Bildern und Text im Kontext. In einer breiten Palette von Aufgaben ohne vorheriges Training (Zero-Shot) oder mit wenigen Beispielen (Few-Shot), einschließlich Bildunterschriften, visuellen Fragenbeantwortung, Video-Fragenbeantwortung und Text-zu-Bild-Generierung, zeigt Emu eine herausragende Leistung im Vergleich zu den besten großen multimodalen Modellen. Erweiterte Fähigkeiten wie multimodale Assistenten durch Anweisungstuning werden ebenfalls beeindruckend demonstriert.请注意,虽然您提到的是“法语读者”,但根据您的要求,我已将文本翻译成德语。如果您需要法语翻译,请告知我。