T-Projection : Projection d'Annotations de Haute Qualité pour les Tâches d'Étiquetage de Séquences

Dans l'absence de données étiquetées facilement accessibles pour une tâche d'étiquetage de séquence et une langue donnée, la projection d'annotation a été proposée comme l'une des stratégies possibles pour générer automatiquement des données annotées. La projection d'annotation est souvent formulée comme la tâche de transporter, dans des corpus parallèles, les étiquettes associées à un segment donné dans la langue source vers son segment correspondant dans la langue cible. Dans cet article, nous présentons T-Projection, une nouvelle approche de projection d'annotation qui utilise des grands modèles linguistiques préentraînés pour le texte et des technologies de traduction automatique de pointe. T-Projection décompose la tâche de projection d'étiquettes en deux sous-tâches : (i) une étape de génération de candidats, où un ensemble de candidats de projection est généré en utilisant un modèle multilingue T5, et (ii) une étape de sélection de candidats, où les candidats générés sont classés selon leurs probabilités de traduction. Nous avons mené des expériences sur des tâches intrinsèques et extrinsèques dans 5 langues indo-européennes et 8 langues africaines à faibles ressources. Nous démontrons que T-Projection surpass largement les méthodes précédentes de projection d'annotation. Nous pensons que T-Projection peut aider à atténuer automatiquement le manque de données d'entraînement de haute qualité pour les tâches d'étiquetage de séquence. Le code et les données sont disponibles publiquement.