Gemma 4 QAT pour PC et mobile
Deux mois après le lancement initial de Gemma 4, l'équipe en charge du modèle annonce aujourd'hui la sortie de nouvelles versions optimisées grâce au Quantization-Aware Training. Cette approche vise à rendre les grands modèles de langage plus légers et plus rapides, permettant leur exécution locale sur des appareils grand public comme les ordinateurs portables et les smartphones. Le Quantization-Aware Training diffère de la méthode classique de quantification post-entraînement. Tandis que cette dernière applique une compression après la formation du modèle, souvent au prix d'une perte de précision, le Quantization-Aware Training intègre la simulation de la quantification directement pendant l'apprentissage. Cela permet de conserver une qualité de génération quasi identique à celle du modèle original tout en réduisant considérablement son empreinte mémoire. Cette nouvelle offre inclut des poids compatibles avec le format de quantification Q4_0, largement utilisé, ainsi qu'un nouveau schéma spécialement conçu pour les usages mobiles. Grâce à cette dernière innovation, la version E2B de Gemma 4 ne nécessite plus que 1 gigaoctet de mémoire vive. Ces optimisations s'appliquent également aux modèles E4B et 26B MOE, ainsi qu'au nouveau modèle 12B annoncé récemment pour équilibrer l'écosystème. Au-delà de la réduction de l'espace de stockage et de la consommation de mémoire graphique, la quantification accélère également la vitesse de génération des réponses. Combinée à la prédiction multi-tokens mise en place précédemment, cette mise à jour consolide l'efficacité opérationnelle de la famille Gemma 4. Ces avancées technologiques visent à démocratiser l'usage des intelligences artificielles locales. En abaissant les barrières matérielles, elles permettent aux développeurs et aux utilisateurs de déployer des modèles performants sur du matériel standard, sans compromettre les performances ni la fiabilité des résultats.
