الأقل هو الأكثر: ClipBERT للتعلم المتعدد الوسائط بين الفيديو واللغة من خلال العينة المتباعدة

النهج القياسي لتعلم الفيديو واللغة (مثل إجابة الأسئلة حول الفيديو) يُحدد نموذجًا عصبيًا لتعلم السمات الكثيفة المُستخرجة مسبقًا من نماذج الرؤية، وسمات النص من نماذج اللغة، وذلك من خلال عمليات خارجية (offline). يتم تدريب هذه مُستخرجات السمات بشكل مستقل، وغالبًا ما يكون ذلك على مهام مختلفة عن المجالات المستهدفة، مما يجعل هذه السمات الثابتة غير مثالية للمهام اللاحقة. علاوةً على ذلك، نظرًا للحمل الحسابي العالي الناتج عن السمات الكثيفة للفيديو، فإن دمج مُستخرجات السمات مباشرة في الطرق الحالية يُعد غالبًا أمرًا صعبًا (أو مستحيلًا) من حيث التحسين الدقيق (fine-tuning) بسهولة. ولحل هذا التناقض، نقترح إطارًا عامًا يُسمى ClipBERT، يُمكّن من التعلم من الطرف إلى الطرف (end-to-end) بتكاليف معقولة لمهام الفيديو واللغة، من خلال استخدام عينة متباعدة (sparse sampling)، حيث تُستخدم في كل خطوة تدريب فقط قطعة واحدة أو قطعتين قصيرتين مُستخرَجتين بشكل متباعد من الفيديو. أظهرت التجارب على مهام استرجاع الفيديو من النص وإجابة الأسئلة حول الفيديو على ستة مجموعات بيانات أن ClipBERT يتفوق (أو يتساوى مع) الطرق الحالية التي تعتمد على الفيديوهات الكاملة، مما يشير إلى أن التعلم من الطرف إلى الطرف باستخدام عدد قليل جدًا من القطع المتباعدة يُعد غالبًا أكثر دقة من استخدام السمات الكثيفة المُستخرجة مسبقًا من الفيديوهات الكاملة، ما يثبت مبدأ "القليل هو كثير" (less-is-more). وتتنوع مقاطع الفيديو في المجموعات الدراسية من حيث المجالات والطول، وتتراوح بين مقاطع GIF عامة بطول 3 ثوانٍ ومقاطع يوتيوب لنشاطات بشرية بطول 180 ثانية، مما يُظهر قدرة التعميم للنهج المُقترح. وتم تقديم دراسات تحليلية شاملة وأبحاث تفصيلية لفك شفرة العوامل التي أسهمت في هذا النجاح. وتم إتاحة الكود الخاص بنا بشكل عام على الرابط التالي: https://github.com/jayleicn/ClipBERT