HyperAIHyperAI

Command Palette

Search for a command to run...

VATT: نماذج تحويلية للتعلم الذاتي متعدد الوسائط من الفيديو والصوت والنص الخام

Hassan Akbari Liangzhe Yuan Rui Qian Wei-Hong Chuang Shih-Fu Chang Yin Cui Boqing Gong

الملخص

نقدّم إطارًا لتعلم التمثيلات متعددة الوسائط من بيانات غير مُعلَّمة باستخدام بنى معمارية لـ Transformer خالية من التحويلات التلافيفية (convolution-free). وبشكل خاص، يأخذ نموذجنا، المُسمى Video-Audio-Text Transformer (VATT)، الإشارات الخام كمدخلات ويستخرج تمثيلات متعددة الوسائط غنية بما يكفي لدعم مجموعة متنوعة من المهام اللاحقة. تم تدريب VATT من البداية إلى النهاية باستخدام خسائر تباين متعددة الوسائط، وتم تقييم أدائه من خلال مهام لاحقة تشمل تصنيف أفعال الفيديو، وتصنيف الأحداث الصوتية، وتصنيف الصور، واسترجاع الفيديو بناءً على النص. علاوةً على ذلك، درسنا نموذجًا موحدًا لـ Transformer يعتمد على التمثيلات الوسيطية دون تمييز بين الوسائط، وذلك عبر مشاركة الأوزان بين الوسائط الثلاثة (الفيديو، الصوت، النص). ونُظهر أن VATT الخالي من التحويلات التلافيفية يتفوق على أفضل البنى القائمة على ConvNet في المهام اللاحقة. وبشكل خاص، حقق نموذج VATT للرؤية (Vision Transformer) دقة أعلى بنسبة 1% تصل إلى 82.1% على مجموعة بيانات Kinetics-400، و83.6% على Kinetics-600، و72.7% على Kinetics-700، و41.1% على Moments in Time، وهي أرقام قياسية جديدة دون الحاجة إلى التدريب المُشرف المسبق. كما أدى نقل النموذج إلى تصنيف الصور إلى تحقيق دقة أعلى بنسبة 1% تصل إلى 78.7% على ImageNet، مقارنة بـ 64.7% التي حققها نفس نموذج Transformer عند تدريبه من الصفر، مما يُظهر قدرة نموذجنا على التعميم على الرغم من الفجوة بين المجالات (الفيديو مقابل الصور). كما حقق نموذج VATT للصوت أيضًا رقماً قياسياً جديداً في تصنيف الأحداث الصوتية المستندة إلى الموجات الصوتية، من خلال تحقيق متوسط دقة مُرجّح (mAP) يبلغ 39.4% على مجموعة بيانات AudioSet، دون أي تدريب مُشرف مسبق. وتم إتاحة كود VATT بشكل علني للجمهور.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp