الفيديو كهيكل رسم بياني شرطي للإجابة متعددة التفاصيل على الأسئلة

إجابة الأسئلة المتعلقة بالفيديو تتطلب من النماذج فهم وتفسير بيانات الفيديو المعقدة والبيانات اللغوية بشكل صحيح لاستخلاص الإجابات بدقة. ركزت الجهود الحالية على تصميم تفاعلات معقدة بين الوسائط المختلفة لدمج المعلومات من الوسائط المتنوعة، مع ترميز الفيديو والسؤال بشكل شامل كسلسلة من الإطارات والكلمات. وعلى الرغم من نجاحها، فإن هذه الأساليب تدور بشكل أساسي حول الطبيعة التسلسلية لمحتوى الفيديو والسؤال، مما يوفر تفسيرًا محدودًا للمشكلة، ويخلو من الوضوح التفسيري. في هذا العمل، نحن ندعي أن الفيديو، رغم عرضه كسلسلة من الإطارات، فإن العناصر البصرية (مثل الكائنات، والإجراءات، والأنشطة، والأحداث) ليست تسلسلية، بل هي هرمية من حيث المعنى في الفضاء المعنوي. لمواكبة الطبيعة متعددة المقاييس للمفاهيم اللغوية في الاستفسارات النصية، نقترح تمثيل الفيديو كهيكل رسم بياني تسلسلي مشروط، يربط بين الحقائق البصرية المختلفة بمقاييس متنوعة بطريقة متدرجة، بمرافقة إشارات نصية متناظرة. وعلى الرغم من بساطة هذا النموذج، تُظهر تجاربنا الواسعة تفوقه مقارنةً بالأساليب السابقة، مع تحسين واضح في الأداء، بالإضافة إلى تعميم أفضل عبر أنواع مختلفة من الأسئلة. كما تُظهر التحليلات الإضافية موثوقية النموذج، إذ تُظهر أدلة بصرية-نصية ذات معنى تدعم الإجابات المتنبأ بها.