HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 7 jours

Uni-MoE-2.0-Omni : Extension du modèle multimodal massif centré sur le langage par MoE avancé, entraînement et données

Uni-MoE-2.0-Omni : Extension du modèle multimodal massif centré sur le langage par MoE avancé, entraînement et données

Résumé

Nous présentons Uni-MoE 2.0, issu de la famille Lychee. En tant que modèle multimodal à grande échelle entièrement open-source (OLM), il représente une avancée significative dans la série Uni-MoE de Lychee en matière de compréhension, de raisonnement et de génération multimodales centrées sur le langage. Construit à partir de zéro sur l’architecture dense Qwen2.5-7B, Uni-MoE-2.0-Omni repose sur trois contributions clés : une conception dynamique de Mélange d’Experts (MoE) à capacité variable, une stratégie progressive d’entraînement renforcée par une méthode itérative de renforcement, ainsi qu’une technique soigneusement conçue d’appariement de données multimodales. Ce modèle est capable de comprendre tous les types de modalités, ainsi que de générer des images, du texte et de la parole. Architecturalement, notre nouveau cadre MoE équilibre efficacité computationnelle et capacité pour 10 entrées transmodales grâce à l’utilisation d’experts partagés, routés et nuls, tandis que notre RoPE 3D Omni-Modality garantit une alignement spatio-temporel transmodal dans la couche d’attention auto-associative. En matière d’entraînement, après une phase de pré-entraînement transmodal, nous appliquons une stratégie progressive de fine-tuning supervisé qui active les experts spécifiques à chaque modalité, améliorée par une composition équilibrée des données et une méthode itérative GSPO-DPO afin de stabiliser l’entraînement par renforcement et d’améliorer les performances de raisonnement. Du point de vue des données, le modèle de base, entraîné sur environ 75 milliards de tokens provenant de données multimodales open-source, est doté de jetons spécifiques pour la génération vocale et visuelle, lui permettant d’apprendre ces tâches génératives en conditionnant ses sorties sur des indices linguistiques. Une évaluation étendue sur 85 benchmarks démontre que notre modèle atteint des performances SOTA ou hautement compétitives par rapport aux principaux OLM, dépassant Qwen2.5-Omni (entraîné sur 1,2 trillion de tokens) sur plus de 50 des 76 benchmarks. Ses forces principales incluent la compréhension vidéo (+7 % en moyenne sur 8), la compréhension multimodale (+7 % en moyenne sur 4) et le raisonnement audiovisuel (+4 %). Il progresse également dans le traitement de la parole longue (réduction du taux d’erreur de transcription de 4,2 %) et excelle dans le traitement d’image de bas niveau et la génération contrôlable, selon 5 métriques.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Uni-MoE-2.0-Omni : Extension du modèle multimodal massif centré sur le langage par MoE avancé, entraînement et données | Articles de recherche | HyperAI