HyperAIHyperAI

Command Palette

Search for a command to run...

IBM lance le modèle de langage à grande échelle Granite 4.1

IBM a présenté la famille Granite 4.1, une nouvelle série de modèles de langage (LLM) denses et open-source destinés à concurrencer les architectures à experts mélangés (MoE) plus lourdes. Composée de versions 3, 8 et 30 milliards de paramètres, cette gamme utilise une architecture de type décodage unique et intègre une fenêtre de contexte pouvant atteindre 512 000 tokens. L'innovation principale réside dans la stratégie de formation axée sur la qualité des données plutôt que sur la simple quantité, permettant au modèle compact de 8 milliards de paramètres d'égaler ou de surpasser le modèle précédent Granite 4.0-H-Small, qui nécessitait 32 milliards de paramètres. Le processus d'entraînement débute par un pré-entraînement sur environ 15 billions de tokens répartis en cinq phases. Les deux premières étapes assurent une compréhension linguistique générale et mathématique, tandis que les phases intermédiaires affinées introduisent des données de haute qualité et des structures de raisonnement. La dernière phase étend la fenêtre de contexte à 512 000 tokens sans compromettre la performance sur les contextes courts. Pour le réglage supervisé, IBM a utilisé un cadre d'évaluation automatisé par intelligence artificielle, nommé LLM-as-Judge, pour filtrer et corriger plus de 4,1 millions d'échantillons de données, garantissant une précision et une cohérence élevées. Une étape cruciale du développement est le pipeline d'apprentissage par renforcement multi-étapes. Ce processus utilise une optimisation de politique relative de groupe (GRPO) couplée à une perte spécifique pour améliorer les capacités en mathématiques, en codage et en suivi d'instructions. Cette approche permet d'éviter l'oubli catastrophique tout en maximisant les performances sur des tâches variées, notamment l'utilisation d'outils et le raisonnement logique. Les résultats montrent des améliorations significatives, avec des gains de points sur des benchmarks mathématiques comme GSM8K et DeepMind-Math après cette phase d'optimisation. La performance de Granite 4.1 est particulièrement remarquable par son efficacité opérationnelle. Contrairement à d'autres modèles qui reposent sur de longues chaînes de réflexion, Granite 4.1 offre une latence prédictible et une consommation de tokens stable, ce qui réduit les coûts pour les entreprises. La version de 8 milliards de paramètres se distingue en atteignant des scores supérieurs à ceux des modèles plus grands sur des tâches complexes comme le suivi d'instructions et la génération de code. De plus, IBM propose des variantes quantifiées en 8 bits pour réduire de moitié l'espace disque et la mémoire GPU requise, facilitant le déploiement sur une infrastructure standard. Tous les modèles sont publiés sous licence Apache 2.0, favorisant ainsi leur adoption large dans le secteur de l'entreprise. Ils prennent en charge douze langues et démontrent une sécurité robuste selon des évaluations indépendantes. En privilégiant une ingénierie rigoureuse des données et une architecture optimisée, IBM démontre que des modèles denses de taille modeste peuvent rivaliser avec des systèmes massivement plus complexes. Cette approche ouvre la voie à des déploiements plus accessibles et économiques de l'intelligence artificielle générative, sans compromettre la qualité des résultats.

Liens associés

IBM lance le modèle de langage à grande échelle Granite 4.1 | Articles tendance | HyperAI