Google lance EmbeddingGemma : le modèle d’embeddings multilingue léger et puissant pour l’informatique embarquée
Google vient de lancer EmbeddingGemma, un modèle d’encodage multilingue avancé, conçu pour être efficace et rapide, notamment sur appareils embarqués. Ce modèle, doté de seulement 308 millions de paramètres et d’une fenêtre contextuelle de 2 048 tokens, s’impose comme l’un des meilleurs modèles de ce gabarit en matière d’encodage de texte. Il supporte plus de 100 langues et se distingue par ses performances exceptionnelles sur le benchmark MTEB (Massive Text Embedding Benchmark), où il est le meilleur modèle textuel multilingue sous 500M de paramètres au moment de sa sortie. Une fois quantifié, il n’utilise que moins de 200 Mo de RAM, ce qui le rend idéal pour des applications en temps réel sur mobile ou appareils à ressources limitées. Construit sur la base du modèle Gemma3, EmbeddingGemma a été modifié pour utiliser une attention bidirectionnelle au lieu de l’attention causale classique des générateurs (décodeurs). Cette architecture d’encodeur permet une meilleure capture du contexte global, essentielle pour des tâches comme la recherche d’information ou le regroupement sémantique. Le modèle produit des embeddings de 768 dimensions, mais grâce à une technique appelée Matryoshka Representation Learning (MRL), ces embeddings peuvent être tronqués à 512, 256 ou 128 dimensions sans perte significative de performance. Cela réduit considérablement la mémoire et le temps de traitement, tout en maintenant une qualité élevée. Le modèle a été entraîné sur un corpus multilingue de 320 milliards de tokens, combinant des textes web publics, du code, de la documentation technique et des exemples synthétiques, filtrés pour éviter tout contenu dangereux ou de faible qualité. Il a été évalué sur les benchmarks MMTEB (v2) et MTEB (v2), où il dépasse largement les modèles comparables de taille similaire, notamment dans des tâches comme la recherche, la classification ou la similarité entre phrases. EmbeddingGemma est entièrement open source et compatible avec de nombreux frameworks populaires : Sentence Transformers, LangChain, LlamaIndex, Haystack, txtai, Transformers.js et Text Embeddings Inference (TEI). Pour garantir des performances optimales, il est essentiel d’utiliser les prompts spécifiques prévus lors de l’entraînement, comme task: search result | query: pour les requêtes ou title: none | text: pour les documents. Ces prompts sont automatiquement gérés dans Sentence Transformers, mais doivent être ajoutés manuellement dans d’autres environnements. Un exemple concret montre la puissance du modèle : une fine-tuning sur le dataset MIRIAD, dédié à la recherche de passages médicaux scientifiques. Le modèle finetuné, sentence-transformers/embeddinggemma-300m-medical, atteint un NDCG@10 de 0,8862, dépassant même des modèles deux fois plus gros comme Qwen3-Embedding-0.6B. Ce résultat souligne l’efficacité du modèle sur des domaines spécialisés, notamment grâce à l’utilisation d’un loss de type Cached Multiple Negatives Ranking Loss et d’un évaluateur d’information retrieval adapté. En résumé, EmbeddingGemma représente une avancée majeure pour les applications embarquées, offrant une combinaison rare de petite taille, haute performance multilingue et flexibilité d’intégration. Son succès repose sur une architecture bien pensée, un entraînement rigoureux et une compatibilité étendue, en faisant un outil incontournable pour les développeurs souhaitant déployer des systèmes de recherche sémantique efficaces et durables.