HyperAIHyperAI

Command Palette

Search for a command to run...

دراسة تجريبية للتحويلات النهائية-إلى-النهاية للفيديو واللغة مع النمذجة البصرية المُقنّعة

Tsu-Jui Fu Linjie Li Zhe Gan Kevin Lin William Yang Wang Lijuan Wang Zicheng Liu

الملخص

أثبتت النمذجة البصرية المُقنّعة (MVM) مؤخرًا فعاليتها في التدريب المسبق البصري. وعلى الرغم من استكشاف أهداف مماثلة تقوم على إعادة البناء في المدخلات الفيديو (مثل النمذجة المُقنّعة للإطارات)، في سياق التدريب المسبق متعدد الوسائط (VidL)، فإن الدراسات السابقة لم تتمكن من تحديد استراتيجية MVM فعّالة حقًا تُسهم بشكل كبير في تحسين الأداء في المهام اللاحقة. في هذا العمل، نُجري دراسة منهجية لاستكشاف الإمكانات المحتملة لـ MVM في سياق تعلم متعدد الوسائط. بشكل خاص، نعتمد دراستنا على نموذج VIOLET، وهو نموذج متكامل من الطرف إلى الطرف (end-to-end) للفيديو واللغة، حيث يمكن تمرير التغذية الراجعة من تدريب MVM إلى فضاء بكسلات الفيديو. تم استكشاف ما مجموعه ثمانية أهداف مختلفة لإعادة البناء في إطار MVM، تتراوح بين القيم البكسلية منخفضة المستوى والانحدارات الموجهة، إلى خرائط العمق من المستوى العالي، والتدفق البصري، والرموز البصرية المنفصلة، والخصائص البصرية المختبئة. أجرينا تجارب شاملة وقدمّا رؤى حول العوامل التي تسهم في تحقيق تدريب MVM فعّال، مما أدى إلى تطوير نموذج محسّن يُدعى VIOLETv2. من الناحية التجريبية، أظهرنا أن نموذج VIOLETv2 المُدرّب باستخدام هدف MVM يحقق تحسينات ملحوظة على 13 معيارًا لتعلم متعدد الوسائط، تشمل إجابة الأسئلة حول الفيديو، ووصف الفيديو، واسترجاع الفيديو من النص.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp