اكتشاف حدود النص المُولَد بواسطة الذكاء الاصطناعي باستخدام RoFT

بسبب التطور السريع للنماذج اللغوية الكبيرة، يواجه الناس بشكل متزايد نصوصًا قد تبدأ وكأنها مكتوبة بواسطة إنسان ولكنها تستمر كنص من/generated. تحديد الحد الفاصل بين الأجزاء المكتوبة بواسطة الإنسان والأجزاء المولدة بواسطة الآلة هو مشكلة صعبة لم تتلق الكثير من الاهتمام في الأدبيات العلمية. نحاول سد هذه الثغرة وفحص عدة طرق لتكيف تصنيفات النصوص الاصطناعية المتقدمة مع إعدادات تحديد الحدود. ندفع جميع الكاشفات إلى حدودها القصوى باستخدام معيار النص الحقيقي أو الوهمي (Real or Fake text benchmark) الذي يحتوي على نصوص قصيرة حول مواضيع مختلفة ويضم إنتاج العديد من النماذج اللغوية. نستخدم هذا التنوع لفحص متانة جميع الكاشفات بعمق في الإعدادات العابرة للمنطقة والعابرة للنموذج لتوفير نقاط مرجعية وأفكار للمزيد من البحث في المستقبل. بشكل خاص، نجد أن الأساليب المستندة إلى حيرة النموذج (perplexity-based approaches) في تحديد الحدود تكون أكثر متانة تجاه خصائص البيانات الخاصة بالمنطقة مقارنة بضبط RoBERTa تحت الإشراف؛ كما نحدد الخصائص التي تربك خوارزميات تحديد الحدود وتؤثر سلبًا على أدائها في الإعدادات العابرة للمنطقة.