اكتشاف الجمل المُولَدة بواسطة الذكاء الاصطناعي في النصوص الهجينة التعاونية بين الإنسان والذكاء الاصطناعي: التحديات، الاستراتيجيات، والأفكار

تستكشف هذه الدراسة التحدي المتمثل في كشف النصوص التي تم توليدها بواسطة الذكاء الاصطناعي على مستوى الجملة ضمن النصوص الهجينة التي يتم إنشاؤها من خلال التعاون بين البشر والذكاء الاصطناعي. تعتمد معظم الدراسات السابقة حول كشف النصوص التي تم توليدها بواسطة الذكاء الاصطناعي للنصوص الهجينة غالبًا على مجموعات بيانات اصطناعية. وتتضمن هذه المجموعات عادةً نصوصًا هجينة ذات حدود محدودة. نعتقد أنه يجب أن تغطي دراسات كشف المحتوى الذي تم توليده بواسطة الذكاء الاصطناعي في النصوص الهجينة أنواعًا مختلفة من النصوص الهجينة التي يتم إنتاجها في بيئات واقعية لتحسين فهم التطبيقات الحقيقية. لذلك، استخدمت دراستنا مجموعة بيانات CoAuthor، والتي تتضمن نصوصًا هجينة متنوعة وواقعية تم إنشاؤها من خلال التعاون بين كتاب بشر ونظام كتابة ذكي في تفاعلات متعددة الأدوار.تبني دراستنا خطوتين باستخدام طريقة تقسيم النص إلى أجزاء: (أ) كشف الأجزاء داخل النص الهجين حيث تحتوي كل جزء على جمل ذات مصدر واحد ثابت، و (ب) تصنيف مصدر كل جزء تم تحديده. أظهرت نتائجنا التجريبية ما يلي:1. يعد كشف الجمل التي تم توليدها بواسطة الذكاء الاصطناعي في النصوص الهجينة مهمة صعبة بشكل عام بسبب: 1.1 اختيار الكتاب البشريين وحتى تعديل الجمل التي تم توليدها بواسطة الذكاء الاصطناعي بناءً على تفضيلاتهم الشخصية يجعل من الصعب تحديد مصدر الأجزاء. 1.2 التغيير المتكرر لمصدر الجمل المجاورة داخل النص الهجين يخلق صعوبات للمكتشفات في تحديد الأجزاء ذات المصدر الثابت. 1.3 الطول القصير للأجزاء داخل النصوص الهجينة يوفر مؤشرات أسلوبية محدودة لتحديد مصدر موثوق به.2. قبل الشروع في عملية الكشف، يكون من المفيد تقييم الطول المتوسط للأجزاء داخل النص الهجين. يساعد هذا التقييم في تحديد ما إذا كان يجب: 2.1 استخدام استراتيجية تقسيم النص للأجزاء للنصوص الهجينة ذات الأجزاء الأطول، أو 2.2 اعتماد استراتيجية تصنيف جملة بجملة مباشرة للنصوص ذات الأجزاء الأقصر.هذه الطريقة توفر إطارًا أكثر دقة ومرونة لكشف المحتوى الذي تم توليداه بواسطة الذكاء الاصطناعي ضمن السياقات التعاونية بين البشر والذكاء الاصطناعي، مما يمكن أن يساهم بشكل كبير في التطبيقات العملية لهذه التقنية.