BEIKE NLP à SemEval-2022 Tâche 4 : Classification de Paragraphes Basée sur des Prompts pour la Détection de Langage Paternaliste et Condescendant

La tâche de détection du langage condescendant (PCL) vise à identifier et catégoriser le langage qui est paternaliste ou condescendant envers les communautés vulnérables dans les médias généraux. Comparée à d'autres tâches de traitement du langage naturel (NLP) de classification de paragraphes, la langue négative présentée dans la tâche de détection PCL est généralement plus implicite et subtile, ce qui rend les performances des approches courantes de classification de texte décevantes. Dans le cadre de la tâche 4 de SemEval-2022, axée sur le problème de détection PCL, cet article présente la solution proposée par notre équipe, qui exploite le potentiel de l'apprentissage basé sur des invitations (prompt-based learning) pour la classification de paragraphes. Nous reformulons la tâche sous forme d'une invitation appropriée à trous (cloze prompt) et utilisons des modèles linguistiques masqués pré-entraînés pour remplir les espaces vides. Pour les deux sous-tâches, la classification binaire et la classification multi-étiquettes, nous avons adopté et affiné le modèle DeBERTa pour prédire les mots d'étiquette masqués des invitations spécifiques à la tâche. Sur l'ensemble d'évaluation, notre approche obtient un score F1 de 0.6406 pour la classification binaire ; pour la classification multi-étiquettes, notre approche atteint un score macro-F1 de 0.4689 et se classe première au tableau des scores (leaderboard).