HyperAIHyperAI
منذ 17 أيام

متجمد في الزمن: مشغل مشترك للصور والفيديو لاسترجاع متكامل من البداية إلى النهاية

Max Bain, Arsha Nagrani, Gül Varol, Andrew Zisserman
متجمد في الزمن: مشغل مشترك للصور والفيديو لاسترجاع متكامل من البداية إلى النهاية
الملخص

هدفنا في هذه الدراسة هو استرجاع الفيديو بناءً على النص – وبشكل خاص إنشاء تمثيل مشترك (Joint Embedding) يمكّن من استرجاع فعّال من النص إلى الفيديو. تتمثل التحديات في هذا المجال في تصميم البنية البصرية وطبيعة بيانات التدريب، حيث إن المجموعات الكبيرة من البيانات المُدرّبة على الفيديو والنص، مثل HowTo100M، تحتوي على ضوضاء، وبالتالي يتم تحقيق أداء تنافسي فقط على نطاق واسع من خلال استخدام كميات هائلة من الحوسبة. نعالج هذين التحديين في هذه الورقة. نقترح نموذجًا قابلاً للتدريب من الطرفين (end-to-end trainable) مصمم للاستفادة من كلا نوعي المجموعات الكبيرة: مجموعات البيانات الخاصة بالصور وبيانات وصف الفيديو. يُعد هذا النموذج تكييفًا وتوسعًا للهندستين الحديثتين ViT وTimesformer، ويتضمن انتباهًا في الفضاء والزمن معًا. ويتميز النموذج بالمرونة، حيث يمكن تدريبه على بيانات صور ونصوص، أو بيانات فيديو ونصوص، بشكل منفصل أو معًا. ويتم تدريبه باستخدام خطة تعلم منهجي (curriculum learning) تبدأ بمعالجة الصور كصور ثابتة ("مجمدة") للفيديو، ثم تدريجيًا يتعلم التركيز على سياق زمني متزايد عند التدريب على بيانات الفيديو. كما نقدّم أيضًا مجموعة بيانات جديدة للتدريب المسبق على الفيديو والنص، تُسمى WebVid-2M، وتشمل أكثر من مليوني فيديو مع عناوين ضعيفة تم جمعها من الإنترنت. وعلى الرغم من التدريب على مجموعات بيانات أصغر بمرتبة من الترتيب (أقل بعشرة أضعاف)، نُظهر أن هذا النهج يحقق نتائج رائدة على المعايير القياسية لاسترجاع الفيديو في المهام التطبيقية، بما في ذلك MSR-VTT، MSVD، DiDeMo، وLSMDC.

متجمد في الزمن: مشغل مشترك للصور والفيديو لاسترجاع متكامل من البداية إلى النهاية | أحدث الأوراق البحثية | HyperAI