Génération de données d'augmentation pour la prédiction des quadruplets sentiment-aspect

La prédiction des quadruplets sentiment-argument (ASQP) analyse les termes d’aspect, les termes d’opinion, la polarité du sentiment et les catégories d’aspect présents dans un texte. Un défi majeur de cette tâche provient de la rareté des données, due au coût élevé d’annotation. Les techniques d’augmentation de données sont couramment utilisées pour remédier à ce problème. Toutefois, les approches existantes se contentent de reformuler les textes présents dans les données d’entraînement, ce qui limite la diversité sémantique des données générées et nuit à leur qualité en raison d’un désaccord entre le texte produit et les quadruplets associés. Pour surmonter ces limitations, nous proposons d’augmenter les quadruplets eux-mêmes, puis d’entraîner un modèle de type « quadruplets → texte » afin de générer des textes correspondants. En outre, nous avons conçu des stratégies novatrices pour filtrer les données de faible qualité et équilibrer la répartition de la difficulté des échantillons dans le jeu de données augmenté. Des études empiriques menées sur deux jeux de données ASQP montrent que notre méthode surpasser d’autres approches d’augmentation de données et atteint un niveau d’performance état de l’art sur les benchmarks.