HyperAIHyperAI
منذ 9 أيام

مُحَوِّل الرسم البياني الفيديو للإجابة على الأسئلة المتعلقة بالفيديو

Junbin Xiao, Pan Zhou, Tat-Seng Chua, Shuicheng Yan
مُحَوِّل الرسم البياني الفيديو للإجابة على الأسئلة المتعلقة بالفيديو
الملخص

يُقدّم هذا البحث نموذجًا يُسمّى "مُحول الرسم البياني الفيديو" (VGT) للإجابة على الأسئلة المتعلقة بالفيديوهات (VideoQA). يتميّز نموذج VGT بخصائص فريدة على وجهين: أولاً، يُصمّم وحدة مُحول رسم بياني ديناميكي تُشفر الفيديو من خلال التقاط العناصر البصرية، وعلاقتها، وديناميكياتها بشكل صريح، مما يمكّن من التفكير المكاني-الزمني المعقد. ثانيًا، يستخدم مُحولات منفصلة للرؤية والنص لمقارنة الصلة بين الفيديو والنص، بدلاً من استخدام مُحول متشابك عبر الوسائط (cross-modal) مُدمج لتصنيف الإجابات. ويتم تحقيق التواصل بين الرؤية والنص من خلال وحدات تفاعل إضافية عبر الوسائط. وبفضل تشفير الفيديو الأكثر منطقية ونهجًا أكثر فعالية في الإجابة على الأسئلة، نُظهر أن نموذج VGT يمكنه تحقيق أداءً أفضل بكثير في مهام VideoQA التي تتطلب استدلالًا على العلاقات الديناميكية مقارنةً بالطرق السابقة، خصوصًا في السيناريو الذي لا يتطلب تدريبًا مسبقًا (pretraining-free). بل يفوق أداءه أداءً لنموذجات أخرى تم تدريبها مسبقًا باستخدام ملايين البيانات الخارجية. كما نُظهر أن VGT يمكنه الاستفادة بشكل كبير من التدريب الذاتي عبر الوسائط (self-supervised cross-modal pretraining)، حتى مع استخدام كميات بيانات أصغر بمرات عديدة. تُظهر هذه النتائج بوضوح الفعالية والتفوّق الذي يتمتع به VGT، وتُسلط الضوء على إمكاناته في تطوير تدريب مسبق أكثر كفاءة من حيث البيانات. وباستخدام تحليلات شاملة وملاحظات تمهيدية، نأمل أن يُسهم VGT في دفع علوم الإجابة على الأسئلة في الفيديو (VQA) إلى ما هو أبعد من التعرف أو الوصف العام، نحو التفكير الدقيق في العلاقات داخل الفيديوهات الواقعية. يمكن الوصول إلى الكود الخاص بنا عبر الرابط: https://github.com/sail-sg/VGT.