Vers une détection automatique des frontières dans les essais hybrides collaboratifs homme-IA en éducation

Les récents modèles de langage à grande échelle (LLM), tels que ChatGPT, sont capables de produire des réponses fluides et proches de celles d’un humain lorsqu’ils reçoivent des instructions précises. Bien qu’ils reconnaissent les avantages apportés par les progrès technologiques, les éducateurs s’inquiètent du fait que les étudiants puissent exploiter ces modèles pour rédiger leurs devoirs et les présenter comme leurs propres travaux originaux. En réponse à ces préoccupations, de nombreuses études ont été menées sur la détection du contenu généré par l’IA. Toutefois, la plupart de ces travaux antérieurs ont modélisé la détection comme un problème de classification binaire, en supposant qu’un texte est soit entièrement rédigé par un humain, soit entièrement généré par une IA. Dans cette étude, nous explorons la détection du contenu généré par l’IA dans un cadre peu étudié mais réaliste, où le texte à détecter est rédigé conjointement par un humain et un modèle de langage génératif (c’est-à-dire un texte hybride). Nous formalisons d’abord la tâche de détection comme l’identification des points de transition entre le contenu humain et le contenu généré par l’IA à partir d’un texte hybride (détection de frontières). Ensuite, nous proposons une approche en deux étapes : (1) séparer le contenu généré par l’IA du contenu rédigé par un humain pendant le processus d’entraînement du encodeur ; et (2) calculer les distances entre chaque paire de prototypes adjacents, en supposant que les frontières se situent entre les deux prototypes adjacents dont la distance est la plus grande. À travers des expérimentations étendues, nous observons les résultats principaux suivants : (1) l’approche proposée surpasse de manière cohérente les méthodes de référence dans diverses configurations expérimentales ; (2) le processus d’entraînement du encodeur améliore significativement les performances de l’approche proposée ; (3) lors de la détection des frontières dans des essais hybrides à une seule frontière, l’approche peut être améliorée en adoptant une taille de prototype relativement grande, entraînant une augmentation de 22 % dans l’évaluation In-Domain et de 18 % dans l’évaluation Out-of-Domain.