XLM-T : Modèles de langage multilingues sur Twitter pour l’analyse d’opinion et au-delà

Les modèles linguistiques sont omniprésents dans le traitement automatique du langage (NLP) actuel, et leur capacité multilingue a récemment suscité un intérêt croissant. Toutefois, les analyses actuelles se sont presque exclusivement concentrées sur des benchmarks standard (ou leurs variantes multilingues), en s’appuyant sur des corpus de pré-entraînement propres et des corpus spécifiques aux tâches comme sources de signal multilingue. Dans cet article, nous introduisons XLM-T, un modèle conçu pour entraîner et évaluer des modèles linguistiques multilingues sur Twitter. Nous proposons notamment : (1) une nouvelle base solide multilingue, constituée d’un modèle XLM-R (Conneau et al., 2020) pré-entraîné sur des millions de tweets dans plus de trente langues, accompagnée de code de démarrage permettant une adaptation ultérieure sur une tâche cible ; et (2) un ensemble de jeux de données unifiés pour l’analyse d’opinion sur Twitter, disponibles dans huit langues différentes, ainsi qu’un modèle XLM-T adapté sur ces données.