HyperAIHyperAI
منذ 17 أيام

VATT: نماذج تحويلية للتعلم الذاتي متعدد الوسائط من الفيديو والصوت والنص الخام

Hassan Akbari, Liangzhe Yuan, Rui Qian, Wei-Hong Chuang, Shih-Fu Chang, Yin Cui, Boqing Gong
VATT: نماذج تحويلية للتعلم الذاتي متعدد الوسائط من الفيديو والصوت والنص الخام
الملخص

نقدّم إطارًا لتعلم التمثيلات متعددة الوسائط من بيانات غير مُعلَّمة باستخدام بنى معمارية لـ Transformer خالية من التحويلات التلافيفية (convolution-free). وبشكل خاص، يأخذ نموذجنا، المُسمى Video-Audio-Text Transformer (VATT)، الإشارات الخام كمدخلات ويستخرج تمثيلات متعددة الوسائط غنية بما يكفي لدعم مجموعة متنوعة من المهام اللاحقة. تم تدريب VATT من البداية إلى النهاية باستخدام خسائر تباين متعددة الوسائط، وتم تقييم أدائه من خلال مهام لاحقة تشمل تصنيف أفعال الفيديو، وتصنيف الأحداث الصوتية، وتصنيف الصور، واسترجاع الفيديو بناءً على النص. علاوةً على ذلك، درسنا نموذجًا موحدًا لـ Transformer يعتمد على التمثيلات الوسيطية دون تمييز بين الوسائط، وذلك عبر مشاركة الأوزان بين الوسائط الثلاثة (الفيديو، الصوت، النص). ونُظهر أن VATT الخالي من التحويلات التلافيفية يتفوق على أفضل البنى القائمة على ConvNet في المهام اللاحقة. وبشكل خاص، حقق نموذج VATT للرؤية (Vision Transformer) دقة أعلى بنسبة 1% تصل إلى 82.1% على مجموعة بيانات Kinetics-400، و83.6% على Kinetics-600، و72.7% على Kinetics-700، و41.1% على Moments in Time، وهي أرقام قياسية جديدة دون الحاجة إلى التدريب المُشرف المسبق. كما أدى نقل النموذج إلى تصنيف الصور إلى تحقيق دقة أعلى بنسبة 1% تصل إلى 78.7% على ImageNet، مقارنة بـ 64.7% التي حققها نفس نموذج Transformer عند تدريبه من الصفر، مما يُظهر قدرة نموذجنا على التعميم على الرغم من الفجوة بين المجالات (الفيديو مقابل الصور). كما حقق نموذج VATT للصوت أيضًا رقماً قياسياً جديداً في تصنيف الأحداث الصوتية المستندة إلى الموجات الصوتية، من خلال تحقيق متوسط دقة مُرجّح (mAP) يبلغ 39.4% على مجموعة بيانات AudioSet، دون أي تدريب مُشرف مسبق. وتم إتاحة كود VATT بشكل علني للجمهور.

VATT: نماذج تحويلية للتعلم الذاتي متعدد الوسائط من الفيديو والصوت والنص الخام | أحدث الأوراق البحثية | HyperAI