vor 17 Tagen

Lyra: Ein effizientes und sprachzentriertes Framework für Omni-Kognition

Zhisheng Zhong, Chengyao Wang, Yuqi Liu, Senqiao Yang, Longxiang Tang, Yuechen Zhang, Jingyao Li, Tianyuan Qu, Yanwei Li, Yukang Chen, Shaozuo Yu, Sitong Wu, Eric Lo, Shu Liu, Jiaya Jia

Details der Forschungsarbeit anzeigen

Lyra: Ein effizientes und sprachzentriertes Framework für Omni-Kognition

Abstract

Mit der Weiterentwicklung von multimodalen Großsprachmodellen (MLLMs) ist eine Ausweitung über einzelne Domänen hinaus entscheidend, um den Anforderungen an vielseitigere und effizientere KI gerecht zu werden. Bisherige Omni-Modelle haben jedoch die Sprache unzureichend berücksichtigt und deren Integration in ein multimodales Kontextverständnis vernachlässigt. Wir stellen Lyra vor, ein effizientes MLLM, das die multimodalen Fähigkeiten erweitert – inklusive fortschrittlicher Langsprachverarbeitung, Audiosignalverständnis, effizienter Cross-Modality-Interaktion und nahtloser Sprachinteraktion. Um Effizienz und eine sprachzentrierte Ausrichtung zu erreichen, setzt Lyra drei Strategien ein: (1) Nutzung bestehender Open-Source-Großmodelle sowie eines neu vorgeschlagenen multiplen LoRA-Ansatzes, um Trainingskosten und Datenaufwand zu reduzieren; (2) Einsatz eines latenten multimodalen Regularisierers und -Extraktors, um die Beziehung zwischen Sprache und anderen Modalitäten zu stärken und somit die Modellleistung zu verbessern; und (3) Aufbau einer hochwertigen, umfangreichen Datensammlung mit 1,5 Millionen multimodalen (Sprache, Vision, Audio) Datensätzen und 12.000 Langsprachbeispielen, die es Lyra ermöglicht, komplexe Langspracheingaben zu verarbeiten und eine robustere Omni-Kognition zu erreichen. Im Vergleich zu anderen Omni-Methoden erreicht Lyra state-of-the-art-Ergebnisse auf verschiedenen Benchmarks für Vision-Sprache, Vision-Sprache und Sprache-Sprache, wobei gleichzeitig weniger Rechenressourcen und geringere Trainingsdatenmengen erforderlich sind.