كل شيء في واحد: استكشاف التدريب المسبق الموحّد للصورة واللغة

تتكون النماذج الشائعة للتدريب المسبق متعددة الوسائط بين الفيديو والنص \cite{actbert,clipbert,violet} من ثلاث مكونات: معالج فيديو، ومعالج نصي، ومحول تكامل متعدد الوسائط من نوع Transformer. وتحاول هذه النماذج تحقيق أداءً أفضل من خلال استخدام معالجات أحادية الوسائط أثقل أو محولات تكامل متعددة الوسائط أكثر تعقيدًا، مما يؤدي إلى زيادة عدد المعلمات وتقليل الكفاءة في المهام التالية. في هذا العمل، نقدم لأول مرة نموذجًا متكاملًا من النهاية إلى النهاية يُسمى \textit{محول all-in-one}، والذي يحول الإشارات الخام من الفيديو والنص إلى تمثيلات مشتركة باستخدام بنية أساسية موحدة. ونُبرز أن المعلومات الزمنية الفريدة المميزة للبيانات المرئية تمثل عائقًا رئيسيًا يعيق تصميم محول غير مرتبط بنوع الوسائط. وللتغلب على هذا التحدي، نُقدّم عملية تدوير الرموز (token rolling) جديدة وفعالة، والتي تُشفّر التمثيلات الزمنية من مقاطع الفيديو بطريقة غير معلمية. وتكمن الفعالية في التصميم الدقيق الذي يمكّن من تعلم التمثيلات لكل من الإدخالات متعددة الوسائط (الفيديو والنص) والإدخالات أحادية الوسائط باستخدام نموذج أساسي موحد. بعد التدقيق الدقيق، يتم نقل النموذج المُدرّب مسبقًا (all-in-one Transformer) إلى مجموعة متنوعة من المهام التالية المتعلقة بالفيديو والنص، بما في ذلك استرجاع الفيديو حسب النص، والإجابة على الأسئلة المتعلقة بالفيديو، واختيار متعدد، والاستدلال البصري على المعرفة الشائعة. وتُظهر النتائج أداءً متقدمًا جدًا على تسعة مجموعات بيانات، مع أقل عدد من العمليات الحسابية (FLOPs) مقارنةً بالمنافسين، مما يُثبت تفوق طريقة عملنا. تم إتاحة الكود والنماذج المُدرّبة مسبقًا عبر الرابط: https://github.com/showlab/all-in-one.