الهبوط التدرجي البديل وخليط الخبراء للإدراك متعدد الوسائط المتكامل

نقدم تقنية الإدراك المتعدد المتكامل (IMP)، وهي نهج بسيط وقابل للتوسع لتدريب ونمذجة متعددة الوسائط ومتنوعة المهام. تقوم IMP بدمج مدخلات متعددة الوسائط، بما في ذلك الصور والفيديوهات والنصوص والأصوات، في مشفّر Transformer واحد مع أقل عدد من المكونات الخاصة بكل وسيلة إدراكية. تستفيد IMP من تصميم جديد يجمع بين التدرج البديل (AGD) وخليط الخبراء (MoE) لتحقيق توسعة فعالة للنموذج والمهام. أجرينا دراسات تجريبية واسعة وكشفنا عن الأفكار الرئيسية التالية: 1) تحديث التدرج بالتناوب على وسائط متنوعة ودوال خسارة وأهداف مختلفة، مع دقة إدخال متغيرة، يحسن النموذج بكفاءة. 2) التخفيف باستخدام MoE على مشفّر واحد غير محدد للوسيلة الإدراكية يحسّن الأداء بشكل كبير، ويتفوق على النماذج الكثيفة التي تستخدم مشفّرات خاصة بكل وسيلة إدراكية أو طبقات تكامل إضافية، ويقلل بشكل كبير من الصراعات بين الوسائط. يحقق IMP أداءً تنافسيًا في مجموعة واسعة من المهام اللاحقة، بما في ذلك تصنيف الفيديو تصنيف الصورة واسترجاع الصورة-النص والفيديو-النص. وبشكل خاص، قمنا بتدريب نموذج IMP-MoE-L نادر التركيز على مهام الفيديو الذي حقق أفضل مستوى حتى الآن في تصنيف الفيديو بدون تعليم: 77.0% على Kinetics-400، 76.8% على Kinetics-600، و68.3% على Kinetics-700، مما يمثل تحسينًا بنسبة +5% و+6.7% و+5.8% على التوالي عن الحالة السابقة لأفضل مستوى حتى الآن، بينما يستخدم فقط 15% من تكلفة الحساب التدريبية الإجمالية لهم.