Lyra : Un cadre efficace et centré sur la parole pour l’omnicognition

À mesure que les modèles linguistiques à grande échelle multimodaux (MLLM) évoluent, il devient essentiel de dépasser les capacités limitées à un seul domaine afin de répondre à la demande croissante d’IA plus polyvalente et plus efficace. Toutefois, les précédents modèles omnimodaux ont insuffisamment exploré le domaine du langage parlé, négligeant son intégration dans une approche multimodale. Nous introduisons Lyra, un MLLM efficace qui renforce les capacités multimodales, notamment la compréhension avancée des longs énoncés oraux, la perception sonore, l’efficacité entre modalités et l’interaction fluide avec le langage parlé. Pour atteindre une efficacité accrue et des fonctionnalités centrées sur le speech, Lyra met en œuvre trois stratégies : (1) l’utilisation de grands modèles open-source existants combinée à une nouvelle méthode de LoRA multimodale, afin de réduire les coûts d’entraînement et les besoins en données ; (2) l’application d’un régulariseur et d’un extracteur latents multimodaux pour renforcer les liens entre le speech et les autres modalités, améliorant ainsi la performance du modèle ; et (3) la construction d’un jeu de données de haute qualité et étendu, comprenant 1,5 million d’échantillons multimodaux (langage, vision, audio) et 12 000 échantillons de discours longs, permettant à Lyra de traiter des entrées complexes en discours prolongé et d’atteindre une cognition omnimodale plus robuste. Par rapport aux autres méthodes omnimodales, Lyra atteint des performances de pointe sur diverses benchmarks de vision-langage, vision-parole et parole-langage, tout en utilisant moins de ressources computationnelles et moins de données d’entraînement.