HyperAI

كشفت دراسة جديدة صادرة عن باحثين في جامعة ستانفورد عن مشكلة خطيرة في نماذج الذكاء الاصطناعي المتقدمة، حيث أثبتت القدرة على اختلاق تفاصيل بصرية وصور غير موجودة تمامًا. ولتفكيك هذه الظاهرة التي أطلقوا عليها اسم "توهم المرآة"، طور الفريق اختبارًا جديدًا بعنوان Phantom-0، تضمن سلسلة من الأسئلة المحددة بدقة عبر عشرين فئة موجهة لأحدث نماذج الذكاء الاصطناعي، بما في ذلك GPT-5 وGemini 3 Pro ونموذجي Claude Sonnet وOpus 4.5. المفاجأة كانت في أن الباحثين لم يقوموا بتقديم أي صور مرفقة مع هذه الأسئلة، ومع ذلك لم يعترف الذكاء الاصطناعي بغياب الصور. بدلاً من ذلك، قدم النموذج إجابات مفصلة وثقة تامة، تتضمن تفاصيل غير صحيحة مثل أرقام لوحات المركبات، ولغات صحف محددة، أو حتى تشخيصات طبية حرجة غير موجودة. وقد أظهرت النتائج أن هذا السلوك الوهمي ظهر في أكثر من 60% من الحالات عبر نماذج الذكاء الاصطناعي الرائدة، مما يهدد موثوقية هذه الأنظمة في المجالات الحساسة مثل الطب. يعتمد هذا السلوك على قدرة النماذج على الاعتماد على الأنماط النصية المخفية بدلاً من التحليل البصري الحقيقي. وقد وصل الأمر إلى حد قيام الباحثين بتدريب نموذج يعتمد على النص فقط (بدون أي وصول لبيانات بصرية) على الإجابة عن أسئلة فحوصات الصدر الشعاعية، حيث تفوق هذا النموذج النصي بحت على أنظمة الذكاء الاصطناعي المتطورة وعلى الأطباء البشر في اختبارات معيارية، مما يكشف عن عيب جوهري في أنظمة التقييم الحالية. توضح الدراسة أن الأنظمة الحالية قد تقيم بشكل خاطف "فهمًا بصريًا" وهميًا عندما تُفترَض وجود صور. وفي حين أن دقة النموذج تنخفض بشكل ملحوظ عندما يُخبر صراحة بأن الصورة مفقودة ويُطلب منه التخمين، يرتفع أداؤه عندما يُطلب منه التصرف كما لو كانت الصورة موجودة، حيث يعتمد على استنتاجات نصية خفية لملء الفراغ. لمواجهة هذا التحدي، اقترح الباحثون منهجية تقييم جديدة تسمى B-Clean، تهدف إلى تصفية الأسئلة التي يمكن الإجابة عليها بناءً على السياق النصي فقط دون الحاجة للصور. هذا الأسلوب يضمن اختبار القدرات البصرية الحقيقية للنماذج ويزيل الاعتماد على التخمين النصي، مما يعزز الدقة والأمان في التطبيقات الحيوية خاصة في المجال الطبي حيث يمكن أن تؤدي الإجابات المختلقة إلى عواقب وخيمة. تُظهر هذه النتائج ضرورة ملحة لإعادة تصميم معايير التقييم لضمان أن مخرجات الذكاء الاصطناعي تعتمد فعليًا على المدخلات البصرية وليست مجرد توليد نصوص بناءً على أنماط إحصائية. النتائج نُشرت حاليًا كنسخة أولية على خوادم arXiv، وتحتاج إلى دراسات مستقبلية لتحديد فعالية منهجية B-Clean في القضاء التام على هذه الظاهرة وضمان مصداقية الذكاء الاصطناعي في المهارات البصرية التي يُفترض به امتلاكها.

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

Command Palette

نماذج الذكاء الاصطناعي تتظاهر بفهم صور غير موجودة

الروابط ذات الصلة

Command Palette

نماذج الذكاء الاصطناعي تتظاهر بفهم صور غير موجودة

الروابط ذات الصلة

Command Palette

نماذج الذكاء الاصطناعي تتظاهر بفهم صور غير موجودة

الروابط ذات الصلة