Command Palette
Search for a command to run...
استنتاج فيزيائي قابل للتفسير وتصنيف أداء في نماذج الرؤية واللغة
استنتاج فيزيائي قابل للتفسير وتصنيف أداء في نماذج الرؤية واللغة
Pranav Pawar Kavish Shah Akshat Bhalani Komal Kasat Dev Mittal Hadi Gala Deepali Patil Nikita Raichada Monali Deshmukh
الملخص
مع تطور نماذج الرؤية واللغة (VLMs) بشكل متزايد، أصبحت قدرتها على التفكير المنطقي موضوع مراقبة متزايدة. وعلى الرغم من تميزها في العديد من المهام، فإن فهمها للمبادئ العلمية الأساسية، مثل مبادئ الفيزياء، ما زال يُعدّ مجالاً غير مستكشف بالكامل. ولتعكس التطورات في هذه القدرات، نقدم إطاراً جديداً وسهل الوصول مصمماً لتقييم دقيق لفهم نماذج الرؤية واللغة للفيزياء ثنائية الأبعاد. يتميز هذا الإطار بمحرّك سيناريوهات عملي يُنشئ بيئة اختبار متنوعة تضم أكثر من 400 مشكلة متعددة في أربع مجالات أساسية: الحركة القذفية، ديناميكا التصادم، الميكانيكا، وديناميكا السوائل. ومن خلال تقييم شامل لأربع نماذج متقدمة من نوع VLMs، نُظهر ارتباطاً قوياً بين حجم النموذج وقدرته على التفكير، حيث حقق النموذج الأفضل لدينا، Qwen2.5-VL-7B، متوسط درجة تقييم بلغ 0.815. ووجدنا أن النماذج تؤدي بشكل ممتاز في المسائل الصيغية، لكنها تواجه صعوبات كبيرة في المجالات التي تتطلب تفكيراً مكانيّاً مجرّداً. وبتصميم هذا الإطار، نهدف إلى تعميم دراسة التفكير العلمي في نماذج الرؤية واللغة، وتعزيز فهم أعمق لقدراتها وحدودها.