HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 20 أيام
Transformer
LLM

انهيار دقة الذكاء الاصطناعي

كشف بحث جديد نُشر في مجلة PNAS Nexus لعام 2025 عن قصور جوهري في قدرة نماذج الذكاء الاصطناعي التوليدية على إدارة الانتباه والمهام التنفيذية، وذلك من خلال اختبارها على مهمة ستروب النفسية الكلاسيكية. يقضي هذا الاختبار بمطالبة المشاركين بذكر لون الحبر الذي كُتبت به كلمات الألوان مع تجاهل المعنى النصي، مما يقيس قدرة الدماغ على كبح الاستجابة التلقائية والتركيز على الهدف. أظهرت التجربة التي قادها الباحث سوكيت باتيل وزملاؤه هونغبين وانغ وجين فان، تفككاً واضحاً بين التعرف على بنية المهمة وتنفيذها الفعلي. فقد استطاعت النماذج مثل Claude 3.5 Sonnet تحديد طبيعة اختبار ستروب وإنشاء روابط للكلمات والألوان، لكنها فشلت في تطبيق الآليات اللازمة لحل التعارض المعرفي عند التطبيق العملي. ووجد الفريق أن الدقة تتهاوى بشكل درامي مع زيادة طول قائمة الكلمات المتعارضة. حيث انخفضت دقة GPT-4o من 91 في المئة مع خمس كلمات إلى 57 في المئة بعشر كلمات، ثم لتسقط إلى 15 في المئة فقط عند الأربعين كلمة. وسجل Claude 3.5 Sonnet استقراراً حتى عشرين كلمة قبل أن ينهار أدائه إلى 24 في المئة عند الأربعين. وفي الاختبارات المختلطة، بلغت دقة النماذج صفر تقريباً للعناصر المتعارضة. وسجلت نتائج مماثلة انحداراً حاداً مع نماذج GPT-5 وClaude Opus 4.1 وGemini 2.5، حيث عجزت هذه النماذج عن الحفاظ على التركيز المطلوب فعدت تلقائياً إلى قراءة الكلمات بدلاً من تسمية ألوان حبرها. ويرجح الباحثون أن هذا التهاوي يدل على وجود قيود بنيوية جوهرية في آليات الانتباه الاصطناعي مقارنة بالانتباه البيولوجي البشري، حيث يمتلك البشر قدرة فطرية على كبح القراءة التلقائية والحفاظ على الأداء المستقر حتى في القوائم الطويلة والمعقدة. وتسلط هذه النتائج الضوء على الفجوة الواسعة بين الذكاء الحسابي المعتمد على المحولات والقدرة التنفيذية الواقعية، مما يعزز الحاجة إلى تطوير هياكل معالجة انتباهية أكثر تطوراً تتجاوز الاعتماد على الأنماط الإحصائية وحدها.

الروابط ذات الصلة

انهيار دقة الذكاء الاصطناعي | القصص الشائعة | HyperAI