HyperAI

أظهرت دراسة حديثة بقيادة جامعة كامبريدج أن نماذج الذكاء الاصطناعي المتقدمة غير قادرة حالياً على تقييم مقالات جامعية طلابية بدقة موثوقة، حيث غالباً ما تفضل "الأسلوب اللغوي" على "المحتوى الفكري". اختبر فريق من الباحثين في علم النفس والخبراء في الذكاء الاصطناعي ثلاثة أنظمة رائدة تشمل أحدث إصدارات كلاود وتشات جي بي تي في أبريل 2026، على أكثر من 750 مقالاً لطلاب جامعيين في بريطانيا. كشف التحليل أن الذكاء الاصطناعي استطاع مطابقة التصنيفات الدرجية البشرية (مثل الدرجة الثانية العليا أو الثانية السفلى) بنسبة تتراوح بين 35% و65% فقط. ومع ذلك، أظهرت الأنظمة تحيزاً واضحاً يتمثل في التقليل من شأن الأوراق التي حصلت على درجات عالية بشرياً، وتضخيم قيم الأوراق ذات الدرجات المنخفضة. على عكس المصححين البشر الذين يحكمون بناءً على المنطق والتحليل النقدي، كانت أنظمة الذكاء الاصطناعي حساسة بشكل مفرط للميزات اللغوية مثل طول النص، ونطاق المفردات، وتعقيد الجمل، بغض النظر عن الجودة الأكاديمية الفعلية. توصل الباحثون إلى أن الذكاء الاصطناعي يميل إلى منح درجات متوسطة لجميع الأوراق، مما يجعله غير دقيق precisely في الحدود الحرجة التي تفصل بين الدرجات الممتازة والموافقة عليها، وهو المكان الذي تكون فيه قرارات التقييم الأهم. هذا التحيز الإحصائي، الذي وصفه المؤلفون بـ"التحيز نحو الميل المركزي"، يعني أن الذكاء الاصطناعي يفشل في تمييز التميز أو العجز بشكل صحيح. بالرغم من هذه القيود، يرى التقرير أن للذكاء الاصطناعي دوراً مساعداً وليس حاكماً. يمكن استخدامه كأداة للكشف عن الأخطاء أو كـ"عين ثانية" للتحقق من الاتساق، أو لتصنيف المهام التي تحتاج إلى مراجعة بشرية عند وجود اختلاف كبير بين درجات الذكاء الاصطناعي والبشر. ومع ذلك، تحذر الدكتورة ديبورا تالمي من أن الاعتماد الكلي على الذكاء الاصطناعي سيؤدي إلى تجانس الدرجات وتقدير غير دقيق للعبقريات، مع إضعاف الثقة بين الأكاديميين والطلاب. في تجربة أخرى ضمن الدراسة، قدمت أنظمة الذكاء الاصطناعي ملاحظات للطلاب تكونت من نصوص أطول بمرتين أو ثلاث مرات من الملاحظات البشرية. وعلى الرغم من صعوبة التمييز بين الملاحظات البشرية والآلية عند إخفاء المصدر، إلا أن الطلاب والموظفين أعربوا عن شعورهم بالغش أو عدم الرضا بمجرد معرفة أن الملاحظات من ذكاء اصطناعي. أكد المشاركون أن التقييم البشري جزء أساسي من "العقد الاجتماعي" في التعليم العالي، وهو ما يضمن شعور الطلاب بالإنصاف واحترام المعايير الأكاديمية. أُجريت الدراسة على 761 مقالاً في علم النفس تم جمعها بين عامي 2022 و2025 من ثلاثة جامعات بريطانية. ووجد الباحثون أن دقة الذكاء الاصطناعي تباينت بين الجامعات، حيث كانت أعلى في كامبريدج (63%) وأقل في مانشستر ميتروبوليتان (35%)، ويعزون ذلك إلى طبيعة الدرجات ونطاقها في كل مؤسسة. في النهاية، تؤكد الدراسة أن القرار النهائي للتقييم يجب أن يظل حكراً على البشر لضمان عدالة التعليم وصحة المعايير الأكاديمية.

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

Command Palette

الذكاء الاصطناعي لا يزال غير مناسب لتقييم مقالات الجامعات

الروابط ذات الصلة

Command Palette

الذكاء الاصطناعي لا يزال غير مناسب لتقييم مقالات الجامعات

الروابط ذات الصلة

Command Palette

الذكاء الاصطناعي لا يزال غير مناسب لتقييم مقالات الجامعات

الروابط ذات الصلة