Granite 4.0 1B Speech : léger, multilingue et optimisé pour le edge
IBM a officiellement lancé Granite 4.0 1B Speech, une nouvelle version allégée de son modèle de reconnaissance vocale conçu spécifiquement pour les applications d'entreprise sur des appareils à ressources limitées. Cette mise à jour marque une évolution significative par rapport à son prédécesseur, le granite-speech-3.3-2b, qui comptait deux fois plus de paramètres. Malgré sa taille réduite, le nouveau modèle offre des performances accrues et une prise en charge élargie des langues. Le modèle se concentre sur la reconnaissance automatique de la parole (ASR) et la traduction bidirectionnelle de la parole (AST). Il est multilingue et prend désormais en charge l'anglais, le français, l'allemand, l'espagnol, le portugais et le japonais. Cette expansion inclut un support natif pour le japonais, une réponse directe aux demandes fréquentes de la communauté. Par ailleurs, une nouvelle fonctionnalité de biais de liste de mots-clés a été intégrée pour améliorer la précision de la reconnaissance des noms propres et des acronymes. Les tests montrent que Granite 4.0 1B Speech atteint une précision supérieure pour la transcription en anglais et une vitesse d'inférence plus rapide grâce à une technique appelée décodage par spéculation. Sa performance a été validée par son classement numéro un sur le leaderboard OpenASR, ce qui en fait le système de reconnaissance vocale open-source le mieux classé à ce jour. Les résultats sont mesurés à l'aide du taux d'erreur de mots (WER), où un score plus bas indique une meilleure précision. Le modèle démontre un WER compétitif sur plusieurs ensembles de données tout en utilisant beaucoup moins de paramètres que ses concurrents de taille équivalente. Comme tous les modèles de la famille Granite, ce dernier est publié sous une licence Apache 2.0, garantissant une accessibilité totale pour les développeurs. Il dispose d'un support natif pour les bibliothèques populaires transformers et vLLM, facilitant ainsi son déploiement. Les évaluations complètes, incluant les détails de l'architecture, les données d'entraînement et des exemples d'utilisation, sont disponibles sur la fiche technique du modèle. IBM recommande d'associer ce modèle à Granite Guardian pour les déploiements en production nécessitant une détection supplémentaire des risques. Cette sortie positionne IBM comme un acteur majeur dans l'IA ouverte, prouvant que des modèles compacts peuvent rivaliser avec des architectures beaucoup plus lourdes. En offrant des performances élevées sur des périphériques contraints, Granite 4.0 1B Speech ouvre la voie à l'intégration de capacités vocales avancées dans une multitude d'appareils IoT et d'applications mobiles, où la latence et la consommation de ressources sont des facteurs critiques. Les développeurs sont invités à tester le modèle dès maintenant et à partager leurs retours pour contribuer à son évolution continue.
