Lyra: Ein effizientes und sprachzentriertes Framework für Omni-Kognition

Mit der Weiterentwicklung von multimodalen Großsprachmodellen (MLLMs) ist eine Ausweitung über einzelne Domänen hinaus entscheidend, um den Anforderungen an vielseitigere und effizientere KI gerecht zu werden. Bisherige Omni-Modelle haben jedoch die Sprache unzureichend berücksichtigt und deren Integration in ein multimodales Kontextverständnis vernachlässigt. Wir stellen Lyra vor, ein effizientes MLLM, das die multimodalen Fähigkeiten erweitert – inklusive fortschrittlicher Langsprachverarbeitung, Audiosignalverständnis, effizienter Cross-Modality-Interaktion und nahtloser Sprachinteraktion. Um Effizienz und eine sprachzentrierte Ausrichtung zu erreichen, setzt Lyra drei Strategien ein: (1) Nutzung bestehender Open-Source-Großmodelle sowie eines neu vorgeschlagenen multiplen LoRA-Ansatzes, um Trainingskosten und Datenaufwand zu reduzieren; (2) Einsatz eines latenten multimodalen Regularisierers und -Extraktors, um die Beziehung zwischen Sprache und anderen Modalitäten zu stärken und somit die Modellleistung zu verbessern; und (3) Aufbau einer hochwertigen, umfangreichen Datensammlung mit 1,5 Millionen multimodalen (Sprache, Vision, Audio) Datensätzen und 12.000 Langsprachbeispielen, die es Lyra ermöglicht, komplexe Langspracheingaben zu verarbeiten und eine robustere Omni-Kognition zu erreichen. Im Vergleich zu anderen Omni-Methoden erreicht Lyra state-of-the-art-Ergebnisse auf verschiedenen Benchmarks für Vision-Sprache, Vision-Sprache und Sprache-Sprache, wobei gleichzeitig weniger Rechenressourcen und geringere Trainingsdatenmengen erforderlich sind.