HyperAIHyperAI

Command Palette

Search for a command to run...

MCIF: معيار متابعة التعليمات متعدد الوسائط عبر اللغات من خلال المحاضرات العلمية

Sara Papi Maike Züfle Marco Gaido Beatrice Savoldi Danni Liu Ioannis Douros Luisa Bentivogli Jan Niehues

Abstract

أحدث التطورات في النماذج اللغوية الكبيرة قد دفعت باتجاه تطوير نماذج لغوية متعددة الوسائط (MLLMs) التي تُدمج النص والصوت والرؤية ضمن إطار موحد. ومع تطور نماذج MLLMs من أنظمة ضيقة، مُتعددة اللغات، مخصصة لمهام محددة، إلى نماذج عامة قادرة على اتباع التعليمات، تبرز مسألة تقييم قدراتها متعددة اللغات ومتعددة الوسائط في سياقات قصيرة وطويلة كأحد المحاور الرئيسية. غير أن المعايير الحالية تفشل في تقييم هذه الجوانب معًا: فهي غالبًا ما تقتصر على اللغة الإنجليزية، وتركز في الغالب على وسائط واحدة في كل مرة، وتعتمد على سياقات قصيرة، أو تفتقر إلى تسميات بشرية – ما يعيق تقييمًا شاملاً لأداء النماذج عبر اللغات، والوسائط، وتعقيد المهام. وللتغلب على هذه الفجوات، نقدّم MCIF (الاستجابة للتعليمات متعددة اللغات متعددة الوسائط)، وهي أول معيار مُعدّ لغات بشرية مُعدّة بناءً على محاضرات علمية، مصممة لتقييم قدرة النماذج على اتباع التعليمات في بيئات متعددة اللغات ومتعددة الوسائط، سواء في المدخلات القصيرة أو الطويلة. يغطي MCIF ثلاث وسائط رئيسية: الصوت، والرؤية، والنص، ويشمل أربع لغات متنوعة (الإنجليزية، والألمانية، والإيطالية، والصينية)، مما يمكّن من تقييم شامل لقدرات نماذج MLLMs في فهم التعليمات عبر اللغات ودمجها مع المعلومات السياقية متعددة الوسائط. تم إصدار MCIF بموجب ترخيص CC-BY 4.0 لتشجيع الأبحاث المفتوحة ودفع عجلة تطور نماذج MLLMs.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
MCIF: معيار متابعة التعليمات متعدد الوسائط عبر اللغات من خلال المحاضرات العلمية | Papers | HyperAI