HyperAIHyperAI

Command Palette

Search for a command to run...

الزعتر: فكّر ما وراء الصور

الملخص

بعد تقديم OpenAI لمفهوم "التفكير من خلال الصور"، اتجهت الجهود الحديثة إلى تحفيز استخدام المعلومات البصرية في عملية الاستدلال بهدف تحسين أداء النماذج في المهام المتعلقة بالاستشعار والاستنتاج. ومع ذلك، وبقدر معرفتنا، لا توجد حتى الآن أي مشاريع مفتوحة المصدر تقدم مجموعة ميزات غنية مثل النماذج المُملَّكة (مثل O3)، التي تُمكّن من إجراء عمليات متنوعة على الصور وتعزز في الوقت نفسه قدرات الاستدلال المنطقي عبر الكود. في هذا البحث، نقدم محاولة أولية في هذا الاتجاه من خلال تقديم نموذج "ثايم" (Think Beyond Images)، وهو نموذج جديد يمكّن النماذج متعددة اللغات والصور (MLLMs) من التفوق على النماذج الحالية القائمة على "التفكير من خلال الصور" من خلال توليد وتنفيذ عمليات معالجة صور وحسابات متنوعة بشكل تلقائي عبر كود قابل للتنفيذ. يتيح هذا النهج، إلى جانب توليد مجموعة غنية من عمليات معالجة الصور الفورية (مثل التقطيع، الدوران، تحسين التباين)، إجراء عمليات حسابية رياضية، مع الحفاظ على درجة عالية من الاستقلالية في تحديد متى وكيفية تطبيق هذه العمليات. نُفعّل هذه القدرة من خلال استراتيجية تدريب مكونة من مرحلتين: المرحلة الأولى تتمثل في التدريب الموجه (SFT) على مجموعة بيانات مختارة مكوّنة من 500 ألف عينة لتعليم إنشاء الكود، تليها مرحلة التعلم بالتعزيز (RL) لتحسين اتخاذ القرار. وفي مرحلة التعلم بالتعزيز، جمعنا يدويًا وصممنا أزواج أسئلة وأجوبة عالية الدقة (High-resolution) لزيادة صعوبة التعلم، كما نقترح خوارزمية GRPO-ATS (تحسين سياسة المقارنة الجماعية مع عينة درجة حرارة تكيفية)، التي تطبّق درجات حرارة مختلفة على إنشاء النصوص وإنشاء الكود، بهدف تحقيق توازن بين الاستكشاف في التفكير والاستدلال ودقة تنفيذ الكود. أجرينا تحليلًا تجريبيًا واسع النطاق ودراسات تحليلية للاستبعاد (ablation studies). وتبين التقييمات الشاملة على ما يقارب 20 معيارًا أن نموذج ثايم يحقق مكاسب كبيرة ومستقرة في الأداء، خاصة في المهام الصعبة المتعلقة بالاستشعار عالي الدقة والاستنتاج المعقد.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp