HyperAIHyperAI
منذ 9 أيام

الإجابة على الأسئلة حول الفيديو باستخدام التحويلة الرسومية للفيديو عبر المقارنة

Junbin Xiao, Pan Zhou, Angela Yao, Yicong Li, Richang Hong, Shuicheng Yan, Tat-Seng Chua
الإجابة على الأسئلة حول الفيديو باستخدام التحويلة الرسومية للفيديو عبر المقارنة
الملخص

نقترح أداء استجابة الأسئلة في الفيديو (VideoQA) بطريقة تناقضية من خلال نموذج تحويل الفيديو الرسومي (CoVGT). تكمن فريدية وتفوّق CoVGT في ثلاث جوانب: 1) يقترح وحدة تحويل رسومية ديناميكية تُشفّر الفيديو من خلال التقاط بصريات الكائنات وعلاقتها وحركتها بشكل صريح، مما يمكّن من التفكير المكاني-الزمني المعقد. 2) يصمم تحويلات منفصلة للفيديو والنص لتمكين التعلم التناقضي بين الفيديو والنص لأغراض الإجابة على الأسئلة، بدلًا من استخدام تحويل متعدد الوسائط للتصنيف الإجابة. وتتم الاتصال الدقيق بين الفيديو والنص من خلال وحدات تفاعل عابرة الوسائط إضافية. 3) يتم تحسين النموذج باستخدام أهداف تناقضية مشتركة مُتعددة وذاتية التعلم بين الإجابات الصحيحة والخاطئة، وكذلك الأسئلة ذات الصلة وغير ذات الصلة على التوالي. وبفضل تشفير الفيديو المتميز وحل الإجابة على الأسئلة، نُظهر أن CoVGT يمكنه تحقيق أداءً أفضل بكثير من الطرق السابقة في مهام الاستدلال على الفيديو، حتى يتفوق على نماذج تم تدريبها مسبقًا باستخدام ملايين البيانات الخارجية. ونُظهر أيضًا أن CoVGT يمكنه الاستفادة من التدريب المسبق عبر الوسائط، مع استخدام بيانات بكميات تقل بمرات عديدة. تُظهر النتائج فعالية وتفوّق CoVGT، وتكشف في الوقت نفسه عن إمكاناته الكامنة في التدريب المسبق بكفاءة أعلى من حيث كمية البيانات. نأمل أن يسهم نجاحنا في دفع تطوير استجابة الأسئلة في الفيديو بعيدًا عن التعرف/الوصف الخشن نحو التفكير الدقيق في العلاقات ضمن محتوى الفيديو. يمكن الوصول إلى الكود الخاص بنا عبر الرابط: https://github.com/doc-doc/CoVGT.

الإجابة على الأسئلة حول الفيديو باستخدام التحويلة الرسومية للفيديو عبر المقارنة | أحدث الأوراق البحثية | HyperAI