AnyMAL: Ein effizienter und skalierbarer any-modality erweiterter Sprachmodell

Wir präsentieren Any-Modality Augmented Language Model (AnyMAL), ein einheitliches Modell, das über diverse Eingabemodalitäten (z. B. Text, Bild, Video, Audio, IMU-Bewegungssensordaten) verfügt und textbasierte Antworten generiert. AnyMAL übernimmt die leistungsstarken textbasierten Schlussfolgerungsfähigkeiten modernster Sprachmodelle wie LLaMA-2 (70B) und wandelt modality-spezifische Signale mittels eines vortrainierten Aligner-Moduls in einen gemeinsamen textuellen Raum um. Um die Fähigkeiten des multimodalen Sprachmodells weiter zu stärken, fine-tunen wir das Modell mit einem manuell gesammelten multimodalen Anweisungssatz, der eine Vielzahl von Themen und Aufgaben abdeckt, die über einfache Fragen-Antwort-Aufgaben hinausgehen. Wir führen eine umfassende empirische Analyse durch, die sowohl menschliche als auch automatisierte Bewertungen umfasst, und demonstrieren eine state-of-the-art-Leistung bei verschiedenen multimodalen Aufgaben.