HyperAIHyperAI

Command Palette

Search for a command to run...

mPLUG-2: نموذج أساسي متعدد الوسائط مُنظَّم عبر النص والصورة والفيديو

الملخص

شهدت السنوات الأخيرة تقاربًا كبيرًا بين لغة، والرؤية، والتدريب المتعدد الوسائط. في هذا العمل، نقدّم mPLUG-2، وهي منظومة موحدة جديدة ذات تصميم معياري للتدريب المتعدد الوسائط، والتي يمكنها الاستفادة من التعاون بين الوسائط مع معالجة مشكلة التشابك بين الوسائط. على عكس النماذج السائدة التي تعتمد حصريًا على إنتاج التسلسل إلى التسلسل أو التمييز القائم على المشغل، يقدّم mPLUG-2 شبكة تكوين متعددة الوحدات من خلال مشاركة وحدات عالمية مشتركة لتعزيز التعاون بين الوسائط، وفصل وحدات الوسائط المختلفة للتعامل مع مشكلة التشابك. يتيح هذا النموذج مرونة في اختيار وحدات مختلفة حسب المهام المختلفة المتعلقة بالفهم والإنتاج عبر جميع الوسائط، بما في ذلك النص، والصورة، والفيديو. أظهرت الدراسة التجريبية أن mPLUG-2 تحقق نتائج قياسية أو تنافسية في أكثر من 30 مهمة لاحقة متنوعة، تشمل مهام متعددة الوسائط للفهم والإنتاج المرتبط بالصورة-النص والفيديو-النص، بالإضافة إلى مهام أحادية الوسائط للفهم المبني فقط على النص أو الصورة أو الفيديو. وبشكل ملحوظ، أظهر mPLUG-2 نتائج قياسية جديدة بـ 48.0% دقة في المرتبة الأولى و80.3 نقطة CIDEr في مهام التساؤل عن الفيديو ووصفه على مجموعة بيانات MSRVTT، مع حجم نموذج أصغر بكثير ونطاق بيانات أصغر. كما أظهر قدرة قوية على التحويل الصفرية في مهام الرؤية-اللغة والفيديو-اللغة. سيتم إتاحة الكود والنماذج على الرابط: https://github.com/alibaba/AliceMind.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp