هل نماذج اللغة أطفالًا موهوبين في حل الألغاز؟ تكشف الألغاز الخوارزمية عن تحديات جادة في التفكير متعدد الوسائط

يقدم هذا البحث مهمة جديدة تُعرف بحل الألغاز متعددة الوسائط، وتم إطاراتها ضمن سياق الإجابة على الأسئلة المرئية. نحن نقدم مجموعة بيانات جديدة تُسمى AlgoPuzzleVQA، مصممة لتحدي وتقييم قدرات النماذج اللغوية متعددة الوسائط في حل ألغاز خوارزمية تتطلب فهماً بصرياً، وفهماً لغوياً، وتفكيرًا خوارزميًا معقدًا. تم إنشاء هذه الألغاز لتغطية طيف واسع من المواضيع الرياضية والخوارزمية، مثل منطق بوول، والتوافيق، ونظرية الرسوم البيانية، والتحسين، والبحث، وغيرها، بهدف تقييم الفجوة بين قدرة تفسير البيانات البصرية ومهارات حل المشكلات الخوارزمية. تم إنشاء مجموعة البيانات تلقائيًا من كود كتبه البشر. جميع ألغازنا تحتوي على حلول دقيقة يمكن استخلاصها من الخوارزمية دون الحاجة إلى عمليات حسابية يدوية متعبة. وهذا يضمن إمكانية توسيع مجموعة البيانات بشكل لا نهائي من حيث تعقيد التفكير وحجمها. تُظهر دراستنا أن النماذج اللغوية الكبيرة (LLMs) مثل GPT4V وGemini تُظهر أداءً محدودًا في مهام حل الألغاز. ونجد أن أداؤها يقترب من العشوائية في بيئة إجابة على أسئلة متعددة الخيارات لعدد كبير من الألغاز. وتؤكد هذه النتائج التحديات الكامنة في دمج المعرفة البصرية، والمعرفة اللغوية، والمعرفة الخوارزمية لحل المشكلات المعقدة التي تتطلب تفكيرًا استنتاجيًا متقدمًا.