UTNLP à SemEval-2022 Tâche 6 : Analyse comparative de la détection de sarcasme utilisant l’augmentation de données basée sur la génération et celle basée sur la mutation

Le sarcasme est un terme qui désigne l’utilisation de mots pour moquer, irriter ou amuser quelqu’un. Il est couramment utilisé sur les réseaux sociaux. La nature métaphorique et créative du sarcasme pose un défi considérable aux systèmes d’analyse d’opinion fondés sur le computing émotionnel. Ce papier présente la méthodologie et les résultats de notre équipe, UTNLP, dans la tâche partagée 6 du SemEval-2022 sur la détection du sarcasme. Nous avons testé différentes modèles ainsi que des approches d’augmentation de données, et rapportons celles qui se sont révélées les plus efficaces. Les expérimentations ont commencé par des modèles d’apprentissage automatique traditionnels, puis ont progressé vers des modèles basés sur les transformateurs et les mécanismes d’attention. Nous avons appliqué une augmentation de données basée sur la mutation de données et la génération de données. En utilisant RoBERTa combiné à une augmentation de données fondée sur la mutation, notre meilleure approche a atteint un F1-sarcastique de 0,38 lors de la phase d’évaluation du concours. Par la suite, après le concours, nous avons corrigé les défauts de notre modèle, atteignant ainsi un F1-sarcastique de 0,414.