Échantillonnage guidé par le sujet pour une détection d’opinion multi-domaines efficace en données

La détection de position (stance detection) consiste à identifier les attitudes exprimées par un auteur à l’égard d’un sujet d’intérêt. Cette tâche s’étend à divers domaines, allant de l’identification d’opinions sur les réseaux sociaux à la détection de position dans le cadre de revendications juridiques. Toutefois, la formulation de cette tâche varie considérablement entre ces domaines, tant en ce qui concerne les protocoles de collecte de données, le dictionnaire d’étiquettes que le nombre d’annotations disponibles. En outre, ces annotations de position sont fortement déséquilibrées, tant au sein d’un même sujet que d’un sujet à l’autre. Ces facteurs rendent la détection de position multi-domaine particulièrement difficile, nécessitant une standardisation et une adaptation au domaine. Pour surmonter ce défi, nous proposons TESTED (Topic-Efficient Stance Detection), une méthode fondée sur une technique d’échantillonnage diversifiée guidée par le sujet et une fonction objective contrastive utilisée pour le finetuning d’un classificateur de position. Nous évaluons notre approche sur une base de référence existante comprenant 16 jeux de données, dans des expériences in-domain (tous les sujets connus) et out-of-domain (sujets inconnus). Les résultats montrent que notre méthode surpasser l’état de l’art, avec une augmentation moyenne de 3,5 points F1 en domaine connu, et une meilleure généralisation, avec une augmentation moyenne de 10,2 points F1 en domaine inconnu, tout en utilisant au plus 10 % des données d’entraînement. Nous démontrons que notre technique d’échantillonnage atténue à la fois les déséquilibres de classes inter-sujets et intra-sujets. Enfin, notre analyse montre que l’objectif d’apprentissage contrastif permet au modèle une segmentation plus nette des échantillons présentant des étiquettes variées.