الإجابة على الأسئلة حول الفيديو ذات المفتوحة المفردات: معيار جديد لتقييم القدرة على التعميم لنماذج الإجابة على الأسئلة حول الفيديو

إن إجابة الأسئلة على الفيديو (VideoQA) يُعد مهمة صعبة تتطلب تفكيرًا متعدد الوسائط معقدًا. على عكس مهام إجابة الأسئلة متعددة الخيارات التي تهدف إلى التنبؤ بالإجابة بناءً على مجموعة من الخيارات المقدمة، فإن الهدف من إجابة الأسئلة المفتوحة على الفيديو هو الإجابة على الأسئلة دون قيود على الإجابات المرشحة. ومع ذلك، فإن معظم النماذج السابقة لـ VideoQA تُصوّر المهمة المفتوحة كمهمة تصنيف، حيث يتم تصنيف أزواج الفيديو-السؤال ضمن مجموعة إجابات ثابتة (أي إجابات ضمن مفردات مغلقة)، والتي تتضمن فقط الإجابات الشائعة (مثل أبرز 1000 إجابة). يؤدي هذا إلى تحيز النموذج نحو الإجابات الشائعة فقط، ويفشل في التعميم على الإجابات غير المُدرَجة في المفردات (out-of-vocabulary). ولذلك، نقترح معيارًا جديدًا يُسمى إجابة الأسئلة على الفيديو المفتوحة (OVQA)، لقياس قدرة نماذج VideoQA على التعميم من خلال أخذ في الاعتبار الإجابات النادرة والغير المرئية مسبقًا. بالإضافة إلى ذلك، ولتحسين قدرة النموذج على التعميم، نقدّم مُعدّلًا نحويًا لطيفًا (soft verbalizer) مبنيًا على الشبكات العصبية الرسومية (GNN)، والذي يعزز التنبؤ بالإجابات النادرة والغير المرئية من خلال جمع المعلومات من الكلمات المشابهة لها. وفيما يخص التقييم، نقدّم خطوطًا أساسية جديدة من خلال تعديل النماذج الحالية (التي تعتمد على المفردات المغلقة) لـ VideoQA المفتوحة، ونُحسّن أداؤها من خلال أخذ الإجابات النادرة والغير المرئية بعين الاعتبار بشكل إضافي. تُظهر دراسات التحليل التجريبي والتحليل النوعي أن المُعدّل النحوي اللطيف القائم على GNN يُحسّن أداء النموذج بشكل ملحوظ، خاصةً في الإجابات النادرة والغير المرئية. نأمل أن يُسهم معيارنا OVQA في توجيه تقييم قدرة نماذج VideoQA على التعميم، ويُلهم الأبحاث المستقبلية. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/mlvlab/OVQA.