منذ 17 أيام

SimVTP: التدريب المسبق للنص الفيديو البسيط باستخدام المُعَمِّلات المُخْفِية

Yue Ma, Tianyu Yang, Yin Shan, Xiu Li

الملخص

تُقدّم هذه الورقة البحثية إطار SimVTP: إطار تدريب مسبق للفيديو والنص بسيط باستخدام مُشفّرات التصحيح المُقنّعة (masked autoencoders). نقوم بحذف عشوائي لقنوات الفضاء-الزمن (spatial-temporal tubes) في الفيديو المُدخل، وكذلك لرموز الكلمات (word tokens) في النص المُدخل، ثم نُدخل هذه البيانات إلى مُشفّر موحّد لإعادة بناء القيم المفقودة من الصور (البكسلات) والكلمات. يتميّز SimVTP بعدة خصائص:1) بفضل استخدام المُشفّر الموحّد، يتمكّن SimVTP من إعادة بناء الإشارة المُقنّعة في أحد الوسائط (مثلاً الفيديو) بمساعدة الوسيط الآخر (النص)، مما يُدرّب بشكل ضمني التزامن بين القنوات المرئية والرموز النصية عبر الوسائط المختلفة.2) يتمتع SimVTP بفوائد نسبة حذف عالية جدًا في الفيديو (مثلاً 90%) بفضل التكرار الزمني في الفيديو، كما يحتاج إلى نسبة حذف عالية جدًا في النص (مثلاً 75%) لتحقيق أفضل أداء، وهي نسبة أعلى بكثير من تلك المستخدمة في BERT (مثلاً 15%)، وذلك لأن دعم الوسيط المرئي يُخفّف من صعوبة إعادة بناء النص، ما يستدعي زيادة نسبة الحذف لجعل المهمة الافتراضية (pretext task) أكثر صعوبة لتعزيز تعلّم الميزات المفيدة.3) عند تزويده باستراتيجيتين شائعتين للتدريب عبر الوسائط، وهما التماثل بين الفيديو والنص (VTC) وإيجاد التوافق بين الفيديو والنص (VTM)، يمكن لـ SimVTP تحسين أداء نقل التعلم (transferable performance) بشكل كبير.4) يتميّز SimVTP بالكفاءة في استخدام البيانات؛ فعلى سبيل المثال، عند تدريبه فقط على 10% من بيانات WebVid-2M، يحقق أداءً مبهرًا (43.8 R@1) على مجموعة بيانات MSRVTT، وهو ما يتفوّق بشكل كبير على أحدث الطرق المُعلّمة على كل من CC3M وWebVid-2M معًا. وقد قمنا بنقل النموذج المُدرّب مسبقًا إلى مهام متعددة في المرحلة التالية (downstream tasks)، وحققنا أداءً متفوّقًا. سيتم إتاحة الشيفرة (الكود) والنموذج على الرابط: https://github.com/mayuelala/SimVTP.