Erkennung von KI-generierten Sätzen in hybriden Texten menschlicher und KI-Kooperation: Herausforderungen, Strategien und Erkenntnisse

Diese Studie untersucht die Herausforderung der Satzebene-erkennung von künstlich-intelligent generiertem Text in hybriden Texten, die durch menschliche und künstliche Intelligenz erstellt werden. Bestehende Studien zur Erkennung von künstlich-intelligent generiertem Text in hybriden Texten basieren häufig auf synthetischen Datensätzen. Diese beinhalten in der Regel hybride Texte mit einer begrenzten Anzahl von Übergängen. Wir argumentieren, dass Studien zur Erkennung von künstlich-intelligent generiertem Inhalt in hybriden Texten verschiedene Arten von hybriden Texten abdecken sollten, die in realistischen Szenarien erstellt wurden, um reale Anwendungen besser zu unterstützen. Daher nutzt unsere Studie den CoAuthor-Datensatz, der eine Vielzahl an realistischen hybriden Texten enthält, die durch die Zusammenarbeit zwischen menschlichen Autoren und einem intelligenten Schreibsystem im Rahmen mehrerer Interaktionsschritte entstanden sind.Wir wenden einen zweistufigen, segmentbasierten Prozess an: (i) Identifizierung von Segmenten innerhalb eines gegebenen hybriden Textes, bei denen jedes Segment Sätze gleicher Urheberschaft enthält, und (ii) Klassifikation der Urheberschaft jedes identifizierten Segments. Unsere empirischen Ergebnisse zeigen hervor, dass (1) die Erkennung von künstlich-intelligent generierten Sätzen in hybriden Texten insgesamt eine schwierige Aufgabe ist, da (1.1) menschliche Autoren künstlich-intelligent generierte Sätze nach persönlichen Vorlieben auswählen und sogar bearbeiten, was die Identifizierung der Urheberschaft von Segmenten erschwert; (1.2) häufig wechselnde Urheberschaft zwischen benachbarten Sätzen innerhalb des hybriden Textes Schwierigkeiten für Segmentdetektoren bereitet, um urhebergleiche Segmente zu erkennen; (1.3) die kurze Länge der Textsegmente innerhalb der hybriden Texte nur wenige stilistische Hinweise für eine zuverlässige Urheberschaftsbestimmung bietet; (2) es ist vorteilhaft, vor Beginn des Erkennungsprozesses die durchschnittliche Länge der Segmente innerhalb des hybriden Textes zu bewerten. Diese Bewertung hilft dabei zu entscheiden, ob (2.1) eine segmentbasierte Strategie für hybride Texte mit längeren Segmenten eingesetzt werden soll oder (2.2) eine direkte satzbasierte Klassifikationsstrategie für solche mit kürzeren Segmenten angewendet werden sollte.