منذ 3 أشهر

الملخص

لا ينبغي أن تقتصر نماذج الوسائط المتعددة العاملة (agentic multimodal models) على فهم النصوص والصور فحسب، بل يجب أن تُفعّل بشكل نشط أدوات خارجية، مثل بيئات تنفيذ الأكواد ومحركات البحث على الويب، وتحلل هذه العمليات ضمن عملية الاستدلال. في هذا العمل، نُقدّم نموذج DeepEyesV2 ونستعرض كيفية بناء نموذج وسائط متعددة عامل من منظورين: بناء البيانات وطرق التدريب وتقييم النموذج. ولاحظنا أن التعلم القائم على المكافأة (reinforcement learning) وحده لا يكفي لاستثارة سلوك فعّال في استخدام الأدوات. وقد دفعنا هذا الظاهرة إلى اقتراح نموذج تدريب مزدوج المراحل: مرحلة ابتدائية (cold-start) لبناء أنماط استخدام الأدوات، تليها مرحلة تعلم مكافأة لتحسين دقة استدعاء الأدوات. وقد قمنا بتكوين مجموعة تدريب متنوعة وذات صعوبة معتدلة، وتشمل بشكل خاص أمثلة تُظهر فائدة استخدام الأدوات. كما نُقدّم RealX-Bench، وهو معيار شامل مصمم لتقييم التفكير الوسائطي المتعدد في السياقات الواقعية، والذي يتطلب تكاملًا لعدة قدرات، منها التمييز البصري، والبحث، والاستدلال. قمنا بتقييم DeepEyesV2 على RealX-Bench وعلى معايير ممثلة أخرى، وبيّنّا فعاليته في فهم المواقف الواقعية، والتفكير الرياضي، والمهام التي تعتمد على البحث المكثف. علاوةً على ذلك، يُظهر DeepEyesV2 قدرة على استدعاء الأدوات بحسب المهمة، حيث يميل إلى استخدام العمليات المرئية في المهام المتعلقة بالتمييز، والعمليات الحسابية العددية في المهام الاستدلالية. ويساهم التعلم القائم على المكافأة في تمكين توليفات معقدة من الأدوات، ويسمح للنموذج باختيار استدعاء الأدوات وفقًا للسياق. نأمل أن يُسهم هذا البحث في توجيه المجتمع العلمي في تطوير نماذج وسائط متعددة عاملة.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار