HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 16 أيام

DeepEyesV2: نحو نموذج متعدد الوسائط عاجز

Jack Hong Chenxiao Zhao ChengLin Zhu Weiheng Lu Guohai Xu Xing Yu

DeepEyesV2: نحو نموذج متعدد الوسائط عاجز

الملخص

لا ينبغي أن تقتصر نماذج الوسائط المتعددة العاملة (agentic multimodal models) على فهم النصوص والصور فحسب، بل يجب أن تُفعّل بشكل نشط أدوات خارجية، مثل بيئات تنفيذ الأكواد ومحركات البحث على الويب، وتحلل هذه العمليات ضمن عملية الاستدلال. في هذا العمل، نُقدّم نموذج DeepEyesV2 ونستعرض كيفية بناء نموذج وسائط متعددة عامل من منظورين: بناء البيانات وطرق التدريب وتقييم النموذج. ولاحظنا أن التعلم القائم على المكافأة (reinforcement learning) وحده لا يكفي لاستثارة سلوك فعّال في استخدام الأدوات. وقد دفعنا هذا الظاهرة إلى اقتراح نموذج تدريب مزدوج المراحل: مرحلة ابتدائية (cold-start) لبناء أنماط استخدام الأدوات، تليها مرحلة تعلم مكافأة لتحسين دقة استدعاء الأدوات. وقد قمنا بتكوين مجموعة تدريب متنوعة وذات صعوبة معتدلة، وتشمل بشكل خاص أمثلة تُظهر فائدة استخدام الأدوات. كما نُقدّم RealX-Bench، وهو معيار شامل مصمم لتقييم التفكير الوسائطي المتعدد في السياقات الواقعية، والذي يتطلب تكاملًا لعدة قدرات، منها التمييز البصري، والبحث، والاستدلال. قمنا بتقييم DeepEyesV2 على RealX-Bench وعلى معايير ممثلة أخرى، وبيّنّا فعاليته في فهم المواقف الواقعية، والتفكير الرياضي، والمهام التي تعتمد على البحث المكثف. علاوةً على ذلك، يُظهر DeepEyesV2 قدرة على استدعاء الأدوات بحسب المهمة، حيث يميل إلى استخدام العمليات المرئية في المهام المتعلقة بالتمييز، والعمليات الحسابية العددية في المهام الاستدلالية. ويساهم التعلم القائم على المكافأة في تمكين توليفات معقدة من الأدوات، ويسمح للنموذج باختيار استدعاء الأدوات وفقًا للسياق. نأمل أن يُسهم هذا البحث في توجيه المجتمع العلمي في تطوير نماذج وسائط متعددة عاملة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
DeepEyesV2: نحو نموذج متعدد الوسائط عاجز | الأوراق البحثية | HyperAI