Le Royaume-Uni lance un modèle d’IA souverain pour préserver le gallois et les langues minoritaires
Le projet UK-LLM, lancé en 2023 sous le nom de BritLLM et piloté par University College London, poursuit son ambition de développer une intelligence artificielle souveraine pour les langues du Royaume-Uni, en s’appuyant sur la technologie NVIDIA Nemotron. Ce nouvel effort vise à créer un modèle de langage avancé capable de raisonner aussi bien en anglais qu’en gallois, langue parlée par environ 850 000 personnes au Pays de Galles. Cette initiative s’inscrit dans une démarche plus large visant à garantir que les services publics — notamment dans les domaines de la santé, de l’éducation et du droit — soient accessibles dans les langues locales, renforçant ainsi l’égalité linguistique et la préservation du patrimoine culturel. Le Premier ministre britannique, Keir Starmer, a souligné l’importance de cette avancée : « Je veux que chaque coin du Royaume-Uni puisse tirer parti des bénéfices de l’intelligence artificielle. En permettant à l’IA de raisonner en gallois, nous assurons que les services publics, de la santé à l’éducation, soient accessibles à tous, dans la langue qu’ils parlent au quotidien. » Le modèle a été entraîné sur le superordinateur Isambard-AI, le plus puissant du Royaume-Uni, financé à hauteur de 225 millions de livres sterling par le gouvernement et basé à l’Université de Bristol. Ce nouveau modèle, développé en collaboration avec l’Université de Bangor et NVIDIA, s’appuie sur les modèles ouverts Nemotron, notamment le modèle Llama Nemotron Super (49 milliards de paramètres) et le Nemotron Nano (9 milliards). Face à la faible disponibilité de données en gallois, l’équipe a utilisé les microservices NVIDIA NIM pour traduire massivement des jeux de données ouverts de Nemotron (plus de 30 millions d’entrées) du anglais au gallois, puis a entraîné le modèle sur des clusters GPU via NVIDIA DGX Cloud Lepton et les puissants processeurs GH200 Grace Hopper d’Isambard-AI. L’Université de Bangor, située dans le comté de Gwynedd — le plus fort en taux de locuteurs gallois — apporte une expertise linguistique et culturelle essentielle. Gruffudd Prys, spécialiste des technologies linguistiques au Centre Bedwyr, a supervisé la vérification de la qualité des données traduites et évalué la capacité du modèle à gérer des nuances complexes du gallois, comme les mutations consonantiques influencées par le contexte. « L’objectif est que le gallois reste une langue vivante, en évolution constante », affirme-t-il. La disponibilité du modèle et de ses jeux de données pour les secteurs public et privé, via l’API de Nscale, ouvre la voie à des applications concrètes : traduction automatique, chatbots bilingues, amélioration de l’accessibilité pour les institutions et les entreprises du Pays de Galles. Le projet prévoit également d’étendre cette méthodologie à d’autres langues britanniques comme le cornique, l’irlandais, le scots et le gaélique écossais, ainsi qu’à des langues africaines et d’Asie du Sud-Est. Pontus Stenetorp, professeur à University College London, estime que les leçons tirées du modèle gallois pourront servir de modèle pour d’autres langues minoritaires. « Ce cadre ouvert, basé sur Nemotron et NIM, peut servir de fondation pour un développement multilingue de l’IA à l’échelle mondiale », conclut-il. En rendant ces modèles accessibles, le Royaume-Uni s’impose comme un acteur pionnier dans la souveraineté technologique et la diversité linguistique de l’intelligence artificielle.
