HyperAI

Cinq ans après la sortie de la version 4.0.0rc-1, le 19 novembre 2020, Hugging Face annonce la première version candidate de Transformers v5.0.0rc-0. Aujourd’hui, le framework est installé plus de 3 millions de fois par jour via pip — une progression spectaculaire par rapport aux 20 000 installations quotidiennes de la version 4. Depuis sa création, Transformers a dépassé 1,2 milliard d’installations. L’écosystème a également connu une croissance exponentielle : de 40 architectures modèles en v4, il en compte désormais plus de 400, avec plus de 750 000 checkpoints partagés sur le Hub, contre seulement 1 000 à l’époque de la version 4. Cette évolution reflète l’essor de l’intelligence artificielle et l’accessibilité grandissante de ses outils. Pour rester pertinent, Transformers s’est recentré sur quatre piliers : simplicité, entraînement, inférence et production. Le premier objectif a été la simplification du code. Le projet adopte désormais une approche modulaire pour faciliter l’intégration, la maintenance et la collaboration. Cette stratégie permet de réduire significativement le nombre de lignes de code à écrire et à reviewer. Une innovation clé est l’introduction de l’interface AttentionInterface, centralisant les méthodes d’attention (comme FlashAttention, SDPA ou FlexAttention), tandis que le code principal reste propre et orienté modèle. Parallèlement, les fichiers de modélisation ont été refacturés pour se concentrer uniquement sur les calculs essentiels (passage avant et arrière), en éliminant les outils redondants. Le système de tokenisation est aussi simplifié : la distinction entre "fast" et "slow" est supprimée, et le backend tokenizers devient le standard, avec des alternatives (comme Sentencepiece ou MistralCommon) en option. Les processeurs d’images ne seront plus disponibles qu’en version "fast", basée sur torchvision. Enfin, le support Flax et TensorFlow est progressivement abandonné au profit d’un focus exclusif sur PyTorch, bien que des partenariats soient en cours avec l’écosystème JAX pour assurer une compatibilité optimale. En matière d’entraînement, v5 améliore fortement le support du pré-entraînement à grande échelle, avec une meilleure gestion de l’initialisation, des paradigmes de parallélisme et des kernels optimisés pour les passes avant et arrière. L’interopérabilité avec des outils comme torchtitan, megatron ou nanotron est renforcée. Pour le fine-tuning, Transformers collabore étroitement avec Unsloth, Axolotl, LlamaFactory, TRL, et même MaxText (JAX), permettant une intégration fluide dans divers écosystèmes et ouvrant la voie à des cas d’usage agents via OpenEnv ou Prime Environment Hub. L’inférence est au cœur des améliorations de v5. Deux nouvelles APIs sont introduites pour simplifier les évaluations à grande échelle. Des kernels spécialisés sont automatiquement activés selon le matériel, sans intervention manuelle. Transformers vise à être parfaitement compatible avec les moteurs d’inférence dédiés (vLLM, SGLang, TensorRT, etc.), sans les remplacer. Cette synergie est essentielle : par exemple, le backend Transformers dans vLLM permet d’étendre la prise en charge à des modèles comme BERT ou d’autres encoders. En production, Transformers s’impose comme référence. Il s’intègre désormais directement à des moteurs comme ONNXRuntime, llama.cpp, MLX, et executorch, permettant une conversion fluide (ex. : chargement de fichiers GGUF pour le fine-tuning ou déploiement local). Les modèles sont compatibles avec les formats safetensors, facilitant l’interopérabilité, notamment avec MLX. La quantification, désormais un pilier central, est traitée comme une fonctionnalité de premier plan. v5 intègre une nouvelle architecture de chargement de poids, offrant une compatibilité totale avec les formats 8-bit, 4-bit (ex. : gpt-oss, Kimi-K2) et les méthodes avancées comme TP ou MoE. Cette évolution, soutenue par des partenariats avec TorchAO et bitsandbytes, ouvre la voie à des modèles plus légers, performants et accessibles. En somme, v5 incarne l’interopérabilité comme fil conducteur. Il s’agit d’un accomplissement collectif, un jalon pour l’avenir : un outil clair, standardisé, et conçu pour s’insérer dans n’importe quel écosystème, de l’entraînement à l’inférence locale. L’équipe attend avec impatience les retours de la communauté via les issues GitHub pour affiner la version finale.

Liens associés

Liens associés

Liens associés

Une Équipe De Recherche Européenne a Proposé SeaCast, Un Modèle Régional De Prévision Océanique À Haute Résolution Capable De Fournir Des Prévisions À 15 Jours En Seulement 20 secondes.

Une Équipe De Recherche Européenne a Proposé SeaCast, Un Modèle Régional De Prévision Océanique À Haute Résolution Capable De Fournir Des Prévisions À 15 Jours En Seulement 20 secondes.

Command Palette

Transformers v5 : une révolution pour l’écosystème de l’IA, au cœur de l’interopérabilité et de la simplicité

Liens associés

Command Palette

Transformers v5 : une révolution pour l’écosystème de l’IA, au cœur de l’interopérabilité et de la simplicité

Liens associés

Command Palette

Transformers v5 : une révolution pour l’écosystème de l’IA, au cœur de l’interopérabilité et de la simplicité

Liens associés

Une Équipe De Recherche Européenne a Proposé SeaCast, Un Modèle Régional De Prévision Océanique À Haute Résolution Capable De Fournir Des Prévisions À 15 Jours En Seulement 20 secondes.

Une Équipe De Recherche Européenne a Proposé SeaCast, Un Modèle Régional De Prévision Océanique À Haute Résolution Capable De Fournir Des Prévisions À 15 Jours En Seulement 20 secondes.