mPLUG-2: نموذج أساسي متعدد الوسائط مُنظَّم عبر النص والصورة والفيديو

شهدت السنوات الأخيرة تقاربًا كبيرًا بين لغة، والرؤية، والتدريب المتعدد الوسائط. في هذا العمل، نقدّم mPLUG-2، وهي منظومة موحدة جديدة ذات تصميم معياري للتدريب المتعدد الوسائط، والتي يمكنها الاستفادة من التعاون بين الوسائط مع معالجة مشكلة التشابك بين الوسائط. على عكس النماذج السائدة التي تعتمد حصريًا على إنتاج التسلسل إلى التسلسل أو التمييز القائم على المشغل، يقدّم mPLUG-2 شبكة تكوين متعددة الوحدات من خلال مشاركة وحدات عالمية مشتركة لتعزيز التعاون بين الوسائط، وفصل وحدات الوسائط المختلفة للتعامل مع مشكلة التشابك. يتيح هذا النموذج مرونة في اختيار وحدات مختلفة حسب المهام المختلفة المتعلقة بالفهم والإنتاج عبر جميع الوسائط، بما في ذلك النص، والصورة، والفيديو. أظهرت الدراسة التجريبية أن mPLUG-2 تحقق نتائج قياسية أو تنافسية في أكثر من 30 مهمة لاحقة متنوعة، تشمل مهام متعددة الوسائط للفهم والإنتاج المرتبط بالصورة-النص والفيديو-النص، بالإضافة إلى مهام أحادية الوسائط للفهم المبني فقط على النص أو الصورة أو الفيديو. وبشكل ملحوظ، أظهر mPLUG-2 نتائج قياسية جديدة بـ 48.0% دقة في المرتبة الأولى و80.3 نقطة CIDEr في مهام التساؤل عن الفيديو ووصفه على مجموعة بيانات MSRVTT، مع حجم نموذج أصغر بكثير ونطاق بيانات أصغر. كما أظهر قدرة قوية على التحويل الصفرية في مهام الرؤية-اللغة والفيديو-اللغة. سيتم إتاحة الكود والنماذج على الرابط: https://github.com/alibaba/AliceMind.