HyperAIHyperAI

Command Palette

Search for a command to run...

VideoBERT: نموذج مشترك لتعلم تمثيل الفيديو واللغة

Chen Sun Austin Myers Carl Vondrick Kevin Murphy Cordelia Schmid

الملخص

التعلم الذاتي بدون إشراف أصبح مهمًا بشكل متزايد للاستفادة من كثرة البيانات غير المصنفة المتاحة على منصات مثل يوتيوب. بينما تركز معظم الطرق الحالية على تعلم التمثيلات المنخفضة المستوى، نقترح نموذجًا مشتركًا بصري-لغوي لتعلم الخصائص عالية المستوى دون أي إشراف صريح. وبشكل خاص، مستوحىً من النجاح الأخير في نماذج اللغة، نعتمد على نموذج BERT لتعلم التوزيعات المشتركة ثنائية الاتجاه فوق سلاسل الرموز البصرية واللغوية، المستخرجة من كميات متجانسة للبيانات المرئية ومخرجات التعرف على الكلام الجاهزة، على التوالي. نستخدم VideoBERT في العديد من المهام، بما في ذلك تصنيف الأنشطة وكتابة تعليقات الفيديو. نوضح أنه يمكن تطبيقه مباشرةً على تصنيف المفردات المفتوحة، ونؤكد أن كميات كبيرة من بيانات التدريب والمعلومات عبر الأنظمة الحسية هي أساسية للأداء. بالإضافة إلى ذلك، نتفوق على أفضل التقنيات الحالية في كتابة تعليقات الفيديو، وتؤكد النتائج الكمية أن النموذج يتعلم الخصائص الدلالية عالية المستوى.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp