HyperAIHyperAI

Command Palette

Search for a command to run...

SimVTP: التدريب المسبق للنص الفيديو البسيط باستخدام المُعَمِّلات المُخْفِية

Yue Ma Tianyu Yang Yin Shan Xiu Li

الملخص

تُقدّم هذه الورقة البحثية إطار SimVTP: إطار تدريب مسبق للفيديو والنص بسيط باستخدام مُشفّرات التصحيح المُقنّعة (masked autoencoders). نقوم بحذف عشوائي لقنوات الفضاء-الزمن (spatial-temporal tubes) في الفيديو المُدخل، وكذلك لرموز الكلمات (word tokens) في النص المُدخل، ثم نُدخل هذه البيانات إلى مُشفّر موحّد لإعادة بناء القيم المفقودة من الصور (البكسلات) والكلمات. يتميّز SimVTP بعدة خصائص:1) بفضل استخدام المُشفّر الموحّد، يتمكّن SimVTP من إعادة بناء الإشارة المُقنّعة في أحد الوسائط (مثلاً الفيديو) بمساعدة الوسيط الآخر (النص)، مما يُدرّب بشكل ضمني التزامن بين القنوات المرئية والرموز النصية عبر الوسائط المختلفة.2) يتمتع SimVTP بفوائد نسبة حذف عالية جدًا في الفيديو (مثلاً 90%) بفضل التكرار الزمني في الفيديو، كما يحتاج إلى نسبة حذف عالية جدًا في النص (مثلاً 75%) لتحقيق أفضل أداء، وهي نسبة أعلى بكثير من تلك المستخدمة في BERT (مثلاً 15%)، وذلك لأن دعم الوسيط المرئي يُخفّف من صعوبة إعادة بناء النص، ما يستدعي زيادة نسبة الحذف لجعل المهمة الافتراضية (pretext task) أكثر صعوبة لتعزيز تعلّم الميزات المفيدة.3) عند تزويده باستراتيجيتين شائعتين للتدريب عبر الوسائط، وهما التماثل بين الفيديو والنص (VTC) وإيجاد التوافق بين الفيديو والنص (VTM)، يمكن لـ SimVTP تحسين أداء نقل التعلم (transferable performance) بشكل كبير.4) يتميّز SimVTP بالكفاءة في استخدام البيانات؛ فعلى سبيل المثال، عند تدريبه فقط على 10% من بيانات WebVid-2M، يحقق أداءً مبهرًا (43.8 R@1) على مجموعة بيانات MSRVTT، وهو ما يتفوّق بشكل كبير على أحدث الطرق المُعلّمة على كل من CC3M وWebVid-2M معًا. وقد قمنا بنقل النموذج المُدرّب مسبقًا إلى مهام متعددة في المرحلة التالية (downstream tasks)، وحققنا أداءً متفوّقًا. سيتم إتاحة الشيفرة (الكود) والنموذج على الرابط: https://github.com/mayuelala/SimVTP.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp