HyperAIHyperAI
منذ 2 أشهر

GigaCheck: كشف المحتوى المُنتج بواسطة نماذج اللغة الكبيرة (LLM)

Tolstykh, Irina ; Tsybina, Aleksandra ; Yakubson, Sergey ; Gordeev, Aleksandr ; Dokholyan, Vladimir ; Kuprashevich, Maksim
GigaCheck: كشف المحتوى المُنتج بواسطة نماذج اللغة الكبيرة (LLM)
الملخص

مع تزايد جودة وانتشار مساعدي النماذج اللغوية الكبيرة (LLM)، فإن كمية المحتوى المُنشأ بواسطة هذه النماذج تزداد بسرعة كبيرة. في العديد من الحالات والمهمات، أصبحت مثل هذه النصوص غير قابلة للتمييز عن تلك التي يكتبها البشر، وتتجه جودة الإنشاء نحو التحسن المستمر. وفي الوقت نفسه، تتطور طرق الكشف عنها بوتيرة أبطأ، مما يجعل من الصعب منع الاستخدام الخاطئ للتكنولوجيات الذكية الإنشائية.في هذا البحث، نستكشف مهمة كشف النصوص المُنشَأة باستخدام تقترحنا لـ GigaCheck. يستكشف بحثنا طريقتين: (i) تمييز النصوص التي يكتبها البشر عن تلك المُنشَأة بواسطة نماذج LLM، و(ii) اكتشاف فترات النصوص المُنشَأة بواسطة LLM في النصوص التعاونية بين الإنسان والآلة. بالنسبة للمهمة الأولى، يستخدم نهجنا نموذجًا عامًا للنماذج اللغوية الكبيرة، مستفيدًا من قدراته اللغوية الواسعة لضبطه بدقة لمهام الكشف عن النصوص المُنشَأة بواسطة LLM، مما يحقق أداءً عاليًا حتى مع بيانات محدودة. أما بالنسبة للمهمة الثانية، فقد اقترحنا نهجًا جديدًا يجمع بين تقنيات الرؤية الحاسوبية ومعالجة اللغة الطبيعية. بشكل خاص، نستخدم نموذجًا عامًا للنماذج اللغوية الكبيرة تم ضبطه بدقة بالاشتراك مع نموذج كشف مشابه لـ DETR، الذي تم تحويله من الرؤية الحاسوبية، لتحديد مواقع الفترات المُنشَأة بواسطة الذكاء الاصطناعي داخل النص.نقيم GigaCheck على خمس مجموعات بيانات تصنيفية تحتوي على نصوص إنجليزية وثلاث مجموعات بيانات مصممة لتحليل النصوص التعاونية بين الإنسان والآلة. تظهر نتائجنا أن GigaCheck يتفوق على الطرق السابقة حتى في ظروف التوزيع الخارجي (out-of-distribution settings)، مما يجعله أساسًا قويًا عبر جميع مجموعات البيانات.

GigaCheck: كشف المحتوى المُنتج بواسطة نماذج اللغة الكبيرة (LLM) | أحدث الأوراق البحثية | HyperAI