HyperAIHyperAI

Command Palette

Search for a command to run...

AnyMAL: Ein effizienter und skalierbarer any-modality erweiterter Sprachmodell

Zusammenfassung

Wir präsentieren Any-Modality Augmented Language Model (AnyMAL), ein einheitliches Modell, das über diverse Eingabemodalitäten (z. B. Text, Bild, Video, Audio, IMU-Bewegungssensordaten) verfügt und textbasierte Antworten generiert. AnyMAL übernimmt die leistungsstarken textbasierten Schlussfolgerungsfähigkeiten modernster Sprachmodelle wie LLaMA-2 (70B) und wandelt modality-spezifische Signale mittels eines vortrainierten Aligner-Moduls in einen gemeinsamen textuellen Raum um. Um die Fähigkeiten des multimodalen Sprachmodells weiter zu stärken, fine-tunen wir das Modell mit einem manuell gesammelten multimodalen Anweisungssatz, der eine Vielzahl von Themen und Aufgaben abdeckt, die über einfache Fragen-Antwort-Aufgaben hinausgehen. Wir führen eine umfassende empirische Analyse durch, die sowohl menschliche als auch automatisierte Bewertungen umfasst, und demonstrieren eine state-of-the-art-Leistung bei verschiedenen multimodalen Aufgaben.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
AnyMAL: Ein effizienter und skalierbarer any-modality erweiterter Sprachmodell | Paper | HyperAI