HyperAIHyperAI

Command Palette

Search for a command to run...

التدريب المسبق للفيديوهات واللغة ذاتية المركزية

الملخص

التدريب المسبق للصوت واللغة (VLP)، الذي يهدف إلى تعلّم تمثيل قابل للتحويل لتعزيز مجموعة واسعة من المهام النهائية المرتبطة بالفيديو والنص، قد حظي مؤخرًا باهتمام متزايد. تعتمد أفضل الأداءات على مجموعات بيانات كبيرة وثلاثية الأشخاص للصوت والنص، مثل HowTo100M. في هذا العمل، نستغل مجموعة بيانات Ego4D التي تم إصدارها حديثًا لاستكشاف التدريب المسبق للصوت واللغة من منظور شخص أول (Egocentric VLP) عبر ثلاث اتجاهات. (i) نُنشئ EgoClip، وهي مجموعة بيانات للتدريب المسبق للصوت والنص من منظور شخص أول، تتضمن 3.8 مليون زوج من المقاطع والنصوص، تم اختيارها بعناية من Ego4D، وتشمل تنوعًا واسعًا من الأنشطة اليومية للإنسان. (ii) نقترح هدفًا جديدًا للتدريب المسبق يُسمى EgoNCE، الذي يُعدّل التعلم المتناقض للصوت والنص ليتماشى مع البيئة الشخصية (egocentric) من خلال استخراج أمثلة إيجابية وسلبية تأخذ بعين الاعتبار الوعي بالمنظور الشخصي. (iii) نقدّم EgoMCQ، وهو معيار تطوير يشبه EgoClip، وبالتالي يمكنه دعم التحقق الفعّال والاستكشاف السريع لقرارات التصميم الخاصة بـ EgoClip وEgoNCE. علاوةً على ذلك، نُظهر أداءً قويًا في خمسة مهام نهائية شخصية على ثلاث مجموعات بيانات: استرجاع الفيديو والنص على EPIC-KITCHENS-100؛ تصنيف الأفعال على Charades-Ego؛ وتصنيف الاستفسارات باللغة الطبيعية، والاستفسارات الزمنية، وتغير حالة الكائنات على معايير تحدي Ego4D. تتوفر مجموعة البيانات والكود على الرابط: https://github.com/showlab/EgoVLP.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp