سخرية ملحوظة: اكتشاف اقتباسات مُخترعة في أوراق بحثية من مؤتمر NeurIPS المتميز
أظهر تحليل أجرته شركة GPTZero، المتخصصة في كشف المحتوى المُختلق بواسطة الذكاء الاصطناعي، وجود تناقضات خطيرة في وثائق بحثية مُقبَلة في مؤتمر نيويرIPS، أحد أبرز المؤتمرات العالمية في مجال الذكاء الاصطناعي. فعند فحص جميع الأوراق البحثية المقبولة في المؤتمر الذي عُقد مؤخرًا في سان دييغو — بواقع 4841 ورقة — تم اكتشاف 100 اقتباسًا مُختلقًا في 51 ورقة، وتم التأكد من كونها غير صحيحة. رغم أن هذا الرقم قد لا يبدو كبيرًا من منظور إحصائي — إذ تضم كل ورقة عشرات أو مئات الاقتباسات، مما يجعل نسبة الأخطاء ضئيلة جدًا — إلا أن الطابع المُقلق يكمن في طبيعة المُصدر: أوراق بحثية من قِبل أبرز الباحثين في مجال الذكاء الاصطناعي، الذين يُفترض أن يكونون مُحترفين في التحقق من دقة المصادر. وقد أشارت صحيفة فورتشن، التي كشفت عن الدراسة أولًا، إلى أن نيويرIPS تؤكد أن وجود اقتباسات خاطئة لا يعني بالضرورة إبطال قيمة البحث نفسه، لكنها تُعدّ إشارة تحذيرية على تزايد التحديات التي تواجهها المؤتمرات العلمية في عصر الذكاء الاصطناعي. الاقتباسات ليست مجرد تفاصيل تقنية؛ بل تمثل مقياسًا أساسيًا لقيمة البحث وتأثيره في المجتمع الأكاديمي. فهي تُستخدم لتقييم مدى تأثير الباحثين، وتحدد مسارهم المهني، وتساهم في بناء سمعتهم العلمية. عندما يُخلق اقتباس مُختلق باستخدام نماذج لغوية كبيرة (LLMs)، فإن ذلك يُضعف مصداقية هذا المؤشر، ويُقلل من قيمة الجهد البحثي نفسه. من جهة أخرى، لا يمكن تحميل المراجعين المسؤولية الكاملة عن اكتشاف كل خطأ، خصوصًا مع التدفق الهائل من المُدخلات التي تصل إلى المؤتمرات. وفقًا لـ GPTZero، يُعاني النظام من "فيضان في التسليمات" — ما يُعرف بـ"الإعصار المُقدّم" — جعل عملية المراجعة الشفهية مرهقة للغاية، وربما غير قادرة على التصدي لجميع الأخطاء الدقيقة. وقد أشارت الشركة إلى دراسة منشورة في مايو 2025 بعنوان "أزمة مراجعة الأوراق في المؤتمرات ذات الصيت العالي"، والتي تناولت هذه المشكلة بشكل مفصل، مشيرة إلى أن نيويرIPS ليست وحدها المتأثرة. لكن السؤال الأهم يبقى: لماذا لم يتحقق الباحثون أنفسهم من دقة الاقتباسات التي تولّدها أدوات الذكاء الاصطناعي؟ فهم يعلمون جيدًا ما هي الدراسات التي استندوا إليها، ويُفترض أنهم يمتلكون القدرة على التحقق. الواقعة تُظهر أن حتى أذكى الباحثين قد يعتمدون على أدوات الذكاء الاصطناعي بشكل مفرط دون التحقق من النتائج، ما يُثير تساؤلات حول مدى موثوقية هذه الأدوات في بيئات بحثية حساسة. الاستنتاج الأعمق لا يكمن في عدد الاقتباسات المُختلقة، بل في الرمزية المُريرة: إذا كان من المستحيل على أبرز خبراء الذكاء الاصطناعي ضمان دقة التفاصيل المُولَّدة بمساعدة الذكاء الاصطناعي، فما الذي يمكن أن نتوقعه من غيرهم؟ هذه الحالة ليست مجرد خطأ تقني، بل إنذار مبكر بمستقبل علمي قد يُهدد مصداقيته، ما لم تُفرض آليات رقابة صارمة على استخدام هذه الأدوات.
