منذ شهر واحد

VideoBERT: نموذج مشترك لتعلم تمثيل الفيديو واللغة

Chen Sun; Austin Myers; Carl Vondrick; Kevin Murphy; Cordelia Schmid

الملخص

التعلم الذاتي بدون إشراف أصبح مهمًا بشكل متزايد للاستفادة من كثرة البيانات غير المصنفة المتاحة على منصات مثل يوتيوب. بينما تركز معظم الطرق الحالية على تعلم التمثيلات المنخفضة المستوى، نقترح نموذجًا مشتركًا بصري-لغوي لتعلم الخصائص عالية المستوى دون أي إشراف صريح. وبشكل خاص، مستوحىً من النجاح الأخير في نماذج اللغة، نعتمد على نموذج BERT لتعلم التوزيعات المشتركة ثنائية الاتجاه فوق سلاسل الرموز البصرية واللغوية، المستخرجة من كميات متجانسة للبيانات المرئية ومخرجات التعرف على الكلام الجاهزة، على التوالي. نستخدم VideoBERT في العديد من المهام، بما في ذلك تصنيف الأنشطة وكتابة تعليقات الفيديو. نوضح أنه يمكن تطبيقه مباشرةً على تصنيف المفردات المفتوحة، ونؤكد أن كميات كبيرة من بيانات التدريب والمعلومات عبر الأنظمة الحسية هي أساسية للأداء. بالإضافة إلى ذلك، نتفوق على أفضل التقنيات الحالية في كتابة تعليقات الفيديو، وتؤكد النتائج الكمية أن النموذج يتعلم الخصائص الدلالية عالية المستوى.