HyperAI
Back to Headlines

Baidu Open Source ERNIE 4.5 : Des Modèles de Langue Allant de 0,3 Milliard à 424 Milliards de Paramètres

il y a 15 jours

Baidu a officiellement rendu open source sa dernière série de modèles ERNIE 4.5, une famille de modèles fondamentaux conçus pour améliorer la compréhension, le raisonnement et la génération des langages. Cette nouvelle série comprend dix variantes de modèles, allant des versions compactes avec 0,3 milliard de paramètres jusqu'à la version la plus massive avec 424 milliards de paramètres. Ces modèles sont désormais librement disponibles pour la communauté mondiale de recherche et de développement via la plateforme Hugging Face, permettant une expérimentation ouverte et un accès plus large aux technologies linguistiques avancées en chinois et en multilingue. Aperçu technique de l'architecture ERNIE 4.5 La série ERNIE 4.5 s'appuie sur les itérations précédentes de Baidu en introduisant des architectures de modèles avancées, notamment des versions densément et de manière éparse activées en utilisant des Mixture-of-Experts (MoE). Les variantes MoE sont particulièrement remarquables pour leur capacité à échelonner les nombres de paramètres efficacement : par exemple, les modèles ERNIE 4.5-MoE-3B et ERNIE 4.5-MoE-47B n'activent qu'un sous-ensemble d'experts pour chaque jeton d'entrée (généralement 2 sur 64 experts), ce qui maintient un nombre gérable de paramètres actifs tout en conservant l'expressivité et les capacités de généralisation du modèle. Formation et techniques de training Les modèles ERNIE 4.5 bénéficient d'une formation qui combine le fine-tuning supervisé (SFT), l'apprentissage par renforcement avec des feedbacks humains (RLHF), et les techniques d'alignement contrastif. Le corpus de training est composé de 5,6 trillions de jetons couvrant de nombreux domaines en chinois et en anglais, grâce au pipeline de prétraining propriétaire à plusieurs étapes de Baidu. Les résultats montrent une haute fidélité dans les tâches d'instruction-following, de conversations multi-tours, de génération en forme longue et de raisonnement. Variantes de modèles et publication open source L'offre ERNIE 4.5 inclut les dix variantes suivantes : ERNIE 4.5-0.3B : Modèle compact avec 0,3 milliard de paramètres. ERNIE 4.5-3B : Modèle intermédiaire avec 3 milliards de paramètres. ERNIE 4.5-13B : Modèle plus grand avec 13 milliards de paramètres. ERNIE 4.5-34B : Modèle d'une taille importante avec 34 milliards de paramètres. ERNIE 4.5-MoE-3B : Version MoE avec 3 milliards de paramètres actifs et 64 experts total. ERNIE 4.5-MoE-16B : Version MoE avec 16 milliards de paramètres actifs et 128 experts total. ERNIE 4.5-MoE-47B : Version MoE avec 47 milliards de paramètres actifs et 128 experts total. ERNIE 4.5-MoE-71B : Version MoE avec 71 milliards de paramètres actifs et 256 experts total. ERNIE 4.5-MoE-156B : Version MoE avec 156 milliards de paramètres actifs et 512 experts total. ERNIE 4.5-MoE-424B : La version la plus massive avec 424 milliards de paramètres actifs et 1024 experts total. Le modèle MoE-47B, par exemple, n'active que 3 milliards de paramètres lors de l'inférence bien qu'il dispose d'un total de 47 milliards de paramètres. De même, le modèle ERNIE 4.5-MoE-424B—the largest ever released by Baidu—utilise des stratégies d'activation éparse pour rendre l'inférence réalisable et évolutivement scalable. Ces modèles prendront en charge tant la quantification FP16 que INT8, facilitant ainsi leur déploiement efficace. Performances Benchmark Les modèles ERNIE 4.5 enregistrent des améliorations notables dans plusieurs tâches clés de traitement des langues naturelles (NLP) chinoises et multilingues. Selon le rapport technique officiel : Dans les tâches d'instruction-following, les modèles profitent d'un fine-tuning contrastif, ce qui améliore leur alignement avec l'intention de l'utilisateur et réduit les taux d'hallucination par rapport aux versions antérieures d'ERNIE. Applications et déploiement La série ERNIE 4.5 est optimisée pour une gamme étendue d'applications : Avec des variantes capables de support jusqu'à 128K de longueur de contexte, cette famille de modèles peut être utilisée pour des tâches nécessitant une mémoire et un raisonnement sur de longs documents ou sessions. Son architecture flexible et scalabilité en font un choix idéal pour des scénarios allant de la génération de textes courts et des interactions conversationnelles aux analyses en forme longue et aux tâches de raisonnement complexes. Conclusion La série ERNIE 4.5 marque une étape significative dans le développement de l'IA open source, offrant une gamme variée de modèles adaptés aux tâches d'analyse par instruction, multilingues et scalables. La décision de Baidu de rendre disponibles des modèles allant de versions légères à 0,3 milliard de paramètres jusqu'à la plus massive à 424 milliards de paramètres reflète son engagement en faveur d'une recherche sur l'IA inclusive et transparente. Grâce à une documentation complète, une disponibilité ouverte sur Hugging Face et un support pour le déploiement efficace, ERNIE 4.5 est bien positionné pour accélérer les avancées mondiales dans la compréhension et la génération des langages naturels. Pour en savoir plus, consultez le papier et les modèles sur Hugging Face. Tous les crédits de cette recherche reviennent aux chercheurs du projet. Suivez-nous également sur Twitter et n'hésitez pas à rejoindre notre forum Reddit de plus de 100 000 abonnés et à vous abonner à notre newsletter.

Related Links