NVIDIA DLI Propose une Formation Pratique sur l’Ajout de Nouvelles Connaissances aux Modèles de Langue Multilingues lors du GTC Paris
NVIDIA Deep Learning Institute Propose une Formation sur les Modèles de Langue Multilingues à GTC Paris Les modèles de langages larges (LLMs) ont la capacité impressionnante de reconnaître, résumer, traduire, prédire et générer du contenu. Cependant, même les modèles les plus puissants font encore face à des limites lorsqu'il s'agit de connaissances spécifiques au monde des affaires, de domaines techniques de niche ou de contextes linguistiques et culturels diversifiés à l'échelle mondiale. La plupart des modèles qualifiés de multilingues sont principalement entraînés en anglais, laissant d'importantes lacunes en termes de précision, de nuances culturelles et de justice. L'utilisation de la génération augmentée par la recherche (RAG) permet de surmonter certains défis, mais pour obtenir des résultats précis dans des secteurs spécifiques et cross-langues, il faut une adaptation plus profonde du modèle. Pourquoi l'évaluation multilingue des modèles importe L'évaluation des modèles est cruciale pour guider leur sélection, leur développement et leur personnalisation. Elle aide à équilibrer le coût, la latence et la qualité tout au long des phases d'entraînement préliminaire, de fine-tuning et de mise en œuvre. Pour les LLMs, qui reposent sur l'interaction naturelle avec la langue, l'évaluation multilingue est particulièrement importante. Par exemple, près de la moitié des Européens utilisent l'anglais comme deuxième langue, mais des millions préfèrent interagir dans leur langue maternelle. Malgré cela, des modèles comme Llama 2 sont entraînés sur moins de 5% de données non anglaises (Figure 1), la situation étant similaire pour de nombreux autres modèles. Sans un test rigoureux, qualifier un modèle de multilingue peut être trompeur et entraîner des problèmes de déploiement coûteux. Figure 1. Répartition des données d'entraînement selon les langues pour Llama 2 Défis dans l'entraînement et l'évaluation multilingue Cette section explique certains des défis liés à l'entraînement et à l'évaluation des modèles AI multilingues. Le workshop Adding New Knowledge to LLMs à GTC Paris couvrira en détail comment relever ces défis. Benchmarks fragmentés : Il n'existe pas de base de données partagée et homogène couvrant les 24 langues officielles de l'UE et leurs variantes locales. Les jeux de données existants varient en termes de conception des tâches et de métriques, ce qui rend difficile la comparaison des scores. Artifacts de traduction : De nombreux benchmarks sont traduits de l'anglais par des machines, introduisant des formulations artificielles qui faussent les résultats. Déséquilibre des tâches : Les tâches discriminatives (choix multiples, classification) dominent, tandis que les tâches génératives (résumé, questions-réponses ouvertes) sont sous-représentées, bien qu'elles soient essentielles dans la plupart des cas d'usage réels. Écueils des métriques : Des métriques superficielles comme BLEU et ROUGE pénalisent les variations légitimes de l'ordre des mots. Par exemple, "Le marché est ouvert aujourd'hui" contre "Aujourd'hui, le marché est ouvert." L'agrégation de métriques hétérogènes en un seul chiffre amplifie les biais. Professionnalisme complet : La véritable fluide couvre au moins 10 dimensions : grammaire, vocabulaire, compétence culturelle, connaissances du domaine, discours, biais, pertinence temporelle, variation dialectale, gestion des scripts et cohérence en long format. Les tests actuels ne touchent qu'une partie de ces aspects. Workshop NVIDIA DLI : Adding New Knowledge to LLMs Ce workshop d'une journée, dirigé par un instructeur, est proposé lors de la GTC Paris. Vous y apprendrez comment transformer les LLMs open source en actifs AI hautement spécialisés et genuinely multilingues grâce à la maîtrise de quatre tâches clés : Évaluation systématique et création d'ensemble de données : Découvrez comment construire des benchmarks d'évaluation personnalisés avec NVIDIA NeMo Evaluator pour identifier précisément les limitations d'un LLM, tant en compréhension de concepts de domaine spécialisés que dans sa performance sur différentes langues. Vous apprendrez à suivre efficacement les progrès de l'ingénierie et à définir des métriques qui captent ce qui compte vraiment pour votre cas d'usage spécifique, que ce soit la précision du domaine ou la compréhension multilingue nuancée. Curation avancée des données : Mettez en œuvre des pipelines moderne d'assainissement et de préparation des données avec NeMo Curator. Vous apprendrez à assembler des ensembles de données de haute qualité adaptés à vos besoins uniques, incluant à la fois des informations spécialisées et un contenu multilingue varié. Cela comprend des stratégies pour le sourcing et l'intégration de données de niche, ainsi que la gestion des complexités liées aux langues, scripts et contextes culturels multiples. Injection ciblée de connaissances : Maîtrisez une gamme de techniques d'adaptation puissantes pour injecter efficacement de nouvelles connaissances et capacités à votre LLM. Vous explorerez comment vous pouvez considérablement renforcer l'expertise de votre modèle et son rayonnement mondial. Optimisation du modèle pour le domaine et la langue : Appliquez des techniques avancées de distillation, de quantification et de pruning avec NVIDIA NeMo Model Optimizer et NVIDIA TensorRT-LLM. L'accent sera mis sur la réduction drastique des coûts de inference et l'amélioration de l'efficacité opérationnelle, sans compromettre les hautes performances sur vos tâches de domaine spécialisé ni les capacités robustes sur toutes les langues cibles, y compris celles avec des ressources limitées. En terminant ce cours, vous acquerrez les compétences nécessaires pour développer, déployer et gérer des systèmes AI qui correspondent à vos exigences de domaine et qui sont réellement multilingues, prêts à offrir des expériences plus précises, pertinentes et culturellement en phase à un public mondial. Impact réel de l'avancement de l'IA multilingue NVIDIA collabore avec des organisations du monde entier pour élaborer des ensembles de données et des modèles dotés d'une robuste capacité multilingue. Ses partenaires voient déjà des résultats significatifs. Par exemple, les collaborations avec des groupes comme le Barcelona Supercomputing Centre ont mené à des améliorations majeures en termes de précision pour des tâches spécifiques à une langue. De même, les partenariats avec des initiatives comme EuroLLM ont conduit au développement de modèles AI multilingues puissants comme EuroLLM 9B Instruct, qui supporte les 24 langues officielles de l'UE et excel dans des tâches comme la question-réponse, le résumé et la traduction sur des marchés linguistiques variés. Ces efforts conjoints sont essentiels pour faire progresser l'IA multilingue. Joignez-vous au workshop pour explorer les pipelines qui rendent ces avancées possibles. Rejoignez-nous à NVIDIA GTC Paris Votre parcours vers la Maîtrise de l'AI Domain-Specific et Multilingue commence à GTC Paris. Réservez votre place pour assister au workshop Adding New Knowledge to LLMs et bénéficiez d'une expérience pratique en main. Pour en savoir plus, jetez un œil à ces sessions connexes à GTC Paris : Sovereign AI in Practice: Building, Evaluating, and Scaling Multilingual LLMs [CWEP1103] : Des experts NVIDIA expliquent comment enrichir les modèles de langages avec de nouvelles connaissances, étendant leurs capacités dans des domaines spécialisés d'affaires, d'ingénierie ou de science, et en ajustant leur adaptation à de nouvelles langues, cultures et valeurs, même lorsque la compréhension fondamentale est initialement faible. Building and Customizing AI Models for European Applications: From Foundation to Fine-Tuning [GP1046] : Un débat de table ronde qui explore la vision et les cadres stratégiques pour la construction d'LLMs souverains calibrés sur le tissu culturel, économique et social européen, avec des insights de model builders européens de premier plan comme BSC et EuroLLM, ainsi que des applications pratiques de ThinkDeep. NVIDIA est une entreprise de avant-garde dans le domaine de l'IA et des technologies de deep learning. Ce workshop à GTC Paris est une opportunité clé pour les développeurs et les experts en IA de se doter des compétences nécessaires pour surmonter les défis de l'adaptation et de l'évaluation multilingue. En investissant dans cette formation, vous contribuerez à repousser les frontières de l'IA et à améliorer sonimpact dans des contexts diversifié et globaux.