Google lance Gemma 4 12B : un modèle multimodale uniifié sans encodeur
Google a annoncé le lancement de Gemma 4 12B, un modèle multimodal unifié conçu sans encodeur dédié. Cette architecture vise à simplifier le traitement de données combinant texte et autres formats, tout en optimisant les performances sur du matériel local et cloud. Les poids du modèle, disponibles en versions préentraînées et adaptées aux instructions, sont désormais accessibles sur Hugging Face et Kaggle. L'offre initiale privilégie une intégration fluide dans les environnements de développement existants. Les ingénieurs peuvent tester le modèle via des interfaces simples comme LM Studio, Ollama ou les applications Google AI Edge. Pour les pipelines d'inférence locaux, la bibliothèque est compatible avec Hugging Face Transformers, llama.cpp, MLX, SGLang et vLLM. Le processus d'ajustement sur mesure peut également être accéléré grâce à l'outil Unsloth. En parallèle, Google publie son dépôt officiel de compétences, appelé Gemma Skills. Cette ressource fournit des modules spécifiques permettant aux développeurs de créer des agents autonomes capables d'interagir de manière plus précise avec les capacités multimodales du modèle. Pour les mises en production, Google propose une stratégie de déploiement flexible. Les équipes techniques peuvent activer des points de terminaison sécurisés via Google Cloud, en s'appuyant sur le Model Garden de Gemini Enterprise Agent Platform, Cloud Run ou Google Kubernetes Engine. Cette approche technique vise à réduire les barrières à l'adoption des grands modèles multimodaux tout en accompagnant les entreprises dans la structuration de workflows intelligents et évolutifs.
