نماذج التفكير تُظهر تفكيرًا ممتازًا… حتى تفشل فجأة
أظهرت النماذج اللغوية الكبيرة تقدماً ملحوظاً في المهام المتعلقة بالاستنتاج والتفكير المنطقي، لكن الدراسات الحديثة تشير إلى فشلها المفاجئ عندما تُعرض لمشاكل استدلالية تتجاوز حدوداً معقّدة بسيطة. في هذا السياق، يعيد الباحثون النظر في هذه النتائج من خلال تحليل نماذج الاستدلال الكبيرة (LRMs)، وهي نماذج لغوية كبرى تم تدريبها بشكل دقيق باستخدام حوافز لاتباع خطوات منطقية متسلسلة والتحقق من نفسها أثناء الاستنتاج. وقد أظهرت هذه النماذج أداءً مبهرًا في مجموعة من المهام والاختبارات، مثل تحليل الرسوم البيانية وحل المسائل المنطقية، ما أثار توقعات بقدرتها على التفكير العام والابتكار في مجالات معقدة مثل الرياضيات والفيزياء والطب والقانون. لكن عند اختبار هذه النماذج على مسائل ذات تعقيد متزايد بشكل محسوس، تظهر أوجه ضعف حادة. فبينما تُظهر النماذج نتائج ممتازة في المهام البسيطة أو المتوسطة، فإن أدائها ينخفض بشكل مفاجئ وحاد عند تجاوز حدود معينة من التعقيد. هذا يشير إلى أن قدرتها على التعميم لا تتجاوز حدود المهام التي تمت تدريبها عليها، ولا تمتلك مرونة حقيقية في مواجهة التحديات المعقدة التي قد تظهر في العالم الحقيقي. لدراسة هذه الظاهرة بدقة، قام الباحثون بتطوير مجموعة بيانات جديدة تُسمى "مجموعة بيانات الاستدلال العميق" (DeepRD)، تتميز بتصميمها القابل للتوسع، حيث يمكن إنشاء عدد لا نهائي من المسائل ذات تعقيد متدرج ومُحكم. باستخدام هذه المجموعة، تم اختبار أداء النماذج في مهام مثل تحديد الاتصال في الرسوم البيانية وتصميم البراهين النصية الطويلة. النتائج أظهرت أن الأداء يظل عالياً في المهام البسيطة، لكنه ينهار فجأة عند تجاوز حدود معينة من التعقيد، ما يؤكد أن النماذج لا تتميّز بقدرة حقيقية على التعميم. كما أُجريت مقارنة بين توزيعات تعقيد المهام في هذه المجموعة وتعقيدات المعرفة الحقيقية، مثل الرسوم البيانية الكبيرة، وشبكات التفاعلات، وقواعد البراهين العلمية. وتبين أن معظم الأمثلة الواقعية تقع ضمن النطاق الذي تُظهر فيه النماذج نجاحاً، لكن "الذيل الطويل" من المهام المعقدة، رغم ندرتها، يمثل فرصة كبيرة للفشل. هذا يُظهر أن النماذج قد تكون مفيدة في المهام اليومية والتطبيقات القريبة، لكنها لا تزال بعيدة عن القدرة على مواجهة التحديات الأعمق في المعرفة الحقيقية. الاستنتاج يُبرز القيمة العملية القصيرة المدى لـLRMs في مجالات محددة، لكنه يُحذّر من التفاؤل المفرط بقدرتها على التفكير المرن والعمومي. ويدعو إلى تطوير نماذج جديدة تُعدّ لتميّزها بقدرة حقيقية على التعميم، لا تُقاس فقط بقدرتها على محاكاة التفكير في مهام محدودة، بل بقدرتها على التكيف مع تعقيدات لا تُحصى في المعرفة البشرية.
