HyperAIHyperAI
منذ 9 أيام

الفيديو-النص كلاعبين في اللعبة: التفاعل الهرمي بانزهاف لتعلم التمثيل عبر الوسائط

Peng Jin, Jinfa Huang, Pengfei Xiong, Shangxuan Tian, Chang Liu, Xiangyang Ji, Li Yuan, Jie Chen
الفيديو-النص كلاعبين في اللعبة: التفاعل الهرمي بانزهاف لتعلم التمثيل عبر الوسائط
الملخص

أظهرت أساليب تعلم التمثيل متعدد الوسائط القائمة على التعلم المقارن، مثل CLIP، أداءً متميزًا، حيث تسعى إلى تفاعلًا معنويًا على أزواج محددة مسبقًا بين الفيديو والنص. ولتوضيح هذا التفاعل العالمي المجرد وتحقيق تقدم أكثر، يجب مواجهة تفاعلات صعبة تُعرف بـ "كسر القشرة" لتمكين التعلم المتقاطع الدقيق. في هذا البحث، نُقدّم نموذجًا مبتكرًا لتمثيل الفيديو والنص كلاعبين في لعبة متعددة المتغيرات باستخدام نظرية الألعاب التعاونية متعددة المتغيرات، بهدف التعامل بذكاء مع عدم اليقين أثناء التفاعل المعنوي الدقيق، مع مراعاة تباين الحجم، والتركيب المرن، وشدة التفاعل غير الواضحة. وبشكل محدد، نقترح "التفاعل الهرمي لبانتشاف" (HBI) لتقدير التقابل الممكن بين إطارات الفيديو وكلمات النص، مما يتيح تقابلًا متعدد الوسائط حساسًا وقابلًا للتفسير. ولتحقيق اللعبة التعاونية بكفاءة بين عدة إطارات فيديو وعدد متعدد من كلمات النص، تقوم الطريقة المقترحة بدمج الإطارات الأصلية (أو الكلمات) ثم حساب تفاعل بانتشاف بين الرموز المدمجة. وباستخدام طبقات متعددة من وحدات دمج الرموز، نحقق ألعابًا تعاونية على مستويات معنوية مختلفة. وقد أثبتت التجارب الواسعة على معايير شائعة لاسترجاع الفيديو-النص والإجابة على الأسئلة المتعلقة بالفيديو، أداءً متفوقًا، مما يؤكد فعالية نهجنا HBI. وبشكل أكثر تشجيعًا، يمكن للنظام أيضًا أن يعمل كأداة تصور تُسهم في فهم أعمق للتفاعلات متعددة الوسائط، مما يترك أثرًا بعيد المدى على المجتمع البحثي. يمكن زيارة صفحة المشروع عبر الرابط: https://jpthu17.github.io/HBI/.