HyperAIHyperAI

Command Palette

Search for a command to run...

Lyra : Un cadre efficace et centré sur la parole pour l'omnicognition

Résumé

À mesure que les modèles linguistiques à grande échelle multimodaux (MLLM) évoluent, il devient essentiel de dépasser les capacités limitées à un seul domaine afin de répondre à la demande croissante en intelligence artificielle plus polyvalente et efficace. Toutefois, les précédents modèles omnimodaux ont insuffisamment exploré le domaine de la parole, négligeant son intégration avec les autres modalités. Nous présentons Lyra, un MLLM efficace qui renforce les capacités multimodales, notamment la compréhension avancée de longues séquences orales, la perception sonore, l’efficacité intermodale, ainsi que l’interaction fluide avec la parole. Pour atteindre à la fois efficacité et une orientation centrée sur la parole, Lyra met en œuvre trois stratégies : (1) l’exploitation de grands modèles open source existants et d’un LoRA multimodal proposé, afin de réduire les coûts d’entraînement et les besoins en données ; (2) l’utilisation d’un régulariseur et d’un extracteur latents multimodaux pour renforcer les liens entre la parole et les autres modalités, améliorant ainsi les performances du modèle ; (3) la construction d’un jeu de données de haute qualité et étendu, comprenant 1,5 million d’échantillons multimodaux (langage, vision, audio) et 12 000 échantillons de discours longs, permettant à Lyra de traiter des entrées orales complexes et d’atteindre une cognition omnimodale plus robuste. Par rapport aux autres approches omnimodales, Lyra atteint des performances de pointe sur diverses évaluations de vision-langage, vision-parole et parole-langage, tout en utilisant moins de ressources computationnelles et moins de données d’entraînement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Lyra : Un cadre efficace et centré sur la parole pour l'omnicognition | Articles | HyperAI