الزعتر: فكّر ما وراء الصور

بعد تقديم OpenAI لمفهوم "التفكير من خلال الصور"، اتجهت الجهود الحديثة إلى تحفيز استخدام المعلومات البصرية في عملية الاستدلال بهدف تحسين أداء النماذج في المهام المتعلقة بالاستشعار والاستنتاج. ومع ذلك، وبقدر معرفتنا، لا توجد حتى الآن أي مشاريع مفتوحة المصدر تقدم مجموعة ميزات غنية مثل النماذج المُملَّكة (مثل O3)، التي تُمكّن من إجراء عمليات متنوعة على الصور وتعزز في الوقت نفسه قدرات الاستدلال المنطقي عبر الكود. في هذا البحث، نقدم محاولة أولية في هذا الاتجاه من خلال تقديم نموذج "ثايم" (Think Beyond Images)، وهو نموذج جديد يمكّن النماذج متعددة اللغات والصور (MLLMs) من التفوق على النماذج الحالية القائمة على "التفكير من خلال الصور" من خلال توليد وتنفيذ عمليات معالجة صور وحسابات متنوعة بشكل تلقائي عبر كود قابل للتنفيذ. يتيح هذا النهج، إلى جانب توليد مجموعة غنية من عمليات معالجة الصور الفورية (مثل التقطيع، الدوران، تحسين التباين)، إجراء عمليات حسابية رياضية، مع الحفاظ على درجة عالية من الاستقلالية في تحديد متى وكيفية تطبيق هذه العمليات. نُفعّل هذه القدرة من خلال استراتيجية تدريب مكونة من مرحلتين: المرحلة الأولى تتمثل في التدريب الموجه (SFT) على مجموعة بيانات مختارة مكوّنة من 500 ألف عينة لتعليم إنشاء الكود، تليها مرحلة التعلم بالتعزيز (RL) لتحسين اتخاذ القرار. وفي مرحلة التعلم بالتعزيز، جمعنا يدويًا وصممنا أزواج أسئلة وأجوبة عالية الدقة (High-resolution) لزيادة صعوبة التعلم، كما نقترح خوارزمية GRPO-ATS (تحسين سياسة المقارنة الجماعية مع عينة درجة حرارة تكيفية)، التي تطبّق درجات حرارة مختلفة على إنشاء النصوص وإنشاء الكود، بهدف تحقيق توازن بين الاستكشاف في التفكير والاستدلال ودقة تنفيذ الكود. أجرينا تحليلًا تجريبيًا واسع النطاق ودراسات تحليلية للاستبعاد (ablation studies). وتبين التقييمات الشاملة على ما يقارب 20 معيارًا أن نموذج ثايم يحقق مكاسب كبيرة ومستقرة في الأداء، خاصة في المهام الصعبة المتعلقة بالاستشعار عالي الدقة والاستنتاج المعقد.