HyperAIHyperAI
منذ 7 أيام

VLCap: الرؤية واللغة مع التعلم المقابل للتصوير المرئي المتماسك لوصف الفقرات المرئية

Kashu Yamazaki, Sang Truong, Khoa Vo, Michael Kidd, Chase Rainwater, Khoa Luu, Ngan Le
VLCap: الرؤية واللغة مع التعلم المقابل للتصوير المرئي المتماسك لوصف الفقرات المرئية
الملخص

في هذه الورقة، نستفيد من عملية الإدراك البشري، التي تتضمن التفاعل بين الرؤية واللغة، لتكوين وصف مترابط لمقاطع الفيديو غير المُقطعة. نقترح ميزات متعددة الوسائط تُعرف بـ (VL)، تتكون من نوعين من الوسائط: (أ) وسائط الرؤية لالتقاط المحتوى البصري الشامل للمنظر ككل، و(ب) وسائط اللغة لاستخراج وصف العناصر الموجودة في المشهد، سواء كانت من الكائنات البشرية أو غير البشرية (مثل الحيوانات والمركبات، إلخ)، بالإضافة إلى العناصر البصرية وغير البصرية (مثل العلاقات والأنشطة، إلخ). علاوةً على ذلك، نقترح تدريب النموذج المُقترح VLCap باستخدام خسارة تعلم تقابلية لوسائط الرؤية واللغة (VL). أظهرت التجارب والدراسات التحليلية على مجموعتي بيانات ActivityNet Captions وYouCookII أن نموذج VLCap يتفوق على الطرق الحديثة الأفضل (SOTA) من حيث دقة الأداء وتنوع النتائج.

VLCap: الرؤية واللغة مع التعلم المقابل للتصوير المرئي المتماسك لوصف الفقرات المرئية | أحدث الأوراق البحثية | HyperAI