AI-generierte Textgrenzerkennung mit RoFT

Aufgrund der raschen Entwicklung großer Sprachmodelle begegnen Menschen zunehmend Texten, die möglicherweise mit einem menschlichen Autor beginnen, aber von einer Maschine fortgesetzt werden. Die Erkennung der Grenze zwischen den vom Menschen verfassten und den maschinell generierten Teilen solcher Texte ist ein herausforderndes Problem, das bisher in der Literatur wenig Beachtung gefunden hat. Wir versuchen, diese Lücke zu schließen und untersuchen verschiedene Methoden, um die neuesten Klassifikatoren für künstlich generierte Texte auf die Erkennung von Grenzen anzupassen. Wir testen alle Detektoren an ihren Grenzen unter Verwendung des Real or Fake-Textbenchmarks, der kurze Texte zu mehreren Themen enthält und Generationen verschiedener Sprachmodelle umfasst. Diese Vielfalt nutzen wir, um die Robustheit aller Detektoren in cross-domain- und cross-model-Einstellungen gründlich zu untersuchen und Baseline-Ergebnisse sowie Erkenntnisse für zukünftige Forschungen bereitzustellen. Insbesondere stellen wir fest, dass perplexitätsbasierte Ansätze zur Grenzerkennung gegenüber den Besonderheiten domänenspezifischer Daten robuster sind als das überwachte Feinjustierung des RoBERTa-Modells; wir identifizieren auch, welche textuelle Merkmale Grenzerkennungsalgorithmen verwirren und ihre Leistung in cross-domain-Einstellungen negativ beeinflussen.请注意,这里有一些术语的翻译:- 大型语言模型: große Sprachmodelle- 机器生成: maschinell generiert- 文本分类器: Klassifikator- 基准测试: Benchmark- 迷惑度 (perplexity): Perplexität- 跨域 (cross-domain): cross-domain- 跨模型 (cross-model): cross-model希望这能帮助您更好地理解译文。如果您有任何进一步的问题或需要调整的地方,请随时告诉我。