HyperAIHyperAI
il y a 2 mois

Détection des phrases générées par IA dans les textes hybrides collaboratifs humain-IA : Défis, stratégies et perspectives

Zeng, Zijie ; Liu, Shiqi ; Sha, Lele ; Li, Zhuang ; Yang, Kaixun ; Liu, Sannyuya ; Gašević, Dragan ; Chen, Guanliang
Détection des phrases générées par IA dans les textes hybrides collaboratifs humain-IA :
  Défis, stratégies et perspectives
Résumé

Cette étude examine le défi de la détection de texte généré par IA au niveau des phrases dans des textes hybrides collaboratifs entre humains et IA. Les recherches existantes sur la détection de texte généré par IA pour les textes hybrides s'appuient souvent sur des ensembles de données synthétiques. Ces derniers impliquent généralement des textes hybrides avec un nombre limité de frontières. Nous soutenons que les études visant à détecter le contenu généré par IA dans les textes hybrides devraient couvrir différents types de textes hybrides générés dans des conditions réalistes afin d'informer davantage les applications pratiques. Par conséquent, notre étude utilise l'ensemble de données CoAuthor, qui comprend une variété de textes hybrides réalistes produits par la collaboration entre des auteurs humains et un système d'écriture intelligent lors d'interactions multirounds.Nous adoptons une pipeline en deux étapes basée sur la segmentation : (i) détecter les segments au sein d'un texte hybride donné, où chaque segment contient des phrases d'une même origine, et (ii) classer l'origine de chaque segment identifié. Nos résultats empiriques mettent en lumière plusieurs points : (1) la détection de phrases générées par IA dans les textes hybrides est globalement une tâche difficile car (1.1) le choix et même l'édition par les auteurs humains des phrases générées par IA selon leurs préférences personnelles ajoutent une difficulté à l'identification de l'origine des segments ; (1.2) le changement fréquent d'origine entre les phrases voisines au sein du texte hybride crée des difficultés pour les détecteurs de segments dans l'identification de segments d'origine cohérente ; (1.3) la courte longueur des segments de texte au sein des textes hybrides fournit peu d'indices stylistiques pour une détermination fiable de l'origine ; (2) avant d'entamer le processus de détection, il est avantageux d'évaluer la longueur moyenne des segments au sein du texte hybride. Cette évaluation aide à décider si (2.1) il convient d'utiliser une stratégie basée sur la segmentation du texte pour les textes hybrides avec des segments plus longs, ou (2.2) si il faut adopter une stratégie de classification directe phrase par phrase pour ceux avec des segments plus courts.

Détection des phrases générées par IA dans les textes hybrides collaboratifs humain-IA : Défis, stratégies et perspectives | Articles de recherche récents | HyperAI