IntentQA: استنتاج نية الفيديو الشامل للسياق

في هذه الورقة البحثية، نقترح مهمة جديدة تُسمى IntentQA، وهي نوع خاص من مهام تحليل الفيديو (VideoQA) تركز على استنتاج نية الفيديو، والتي أصبحت ذات أهمية متزايدة للذكاء الاصطناعي بفضل ميزاتها في تمكين الوكلاء الذكية من القدرة على التفكير التأملي خارج مجرد التعرف على المحتوى في المهام اليومية. كما نقدم مجموعة بيانات كبيرة لمهام تحليل الفيديو الخاصة بهذه المهمة. ونُقدّم نموذجًا جديدًا يُسمى CaVIR (النموذج المُراعي للسياق في استنتاج نية الفيديو)، يتكوّن من: (أ) لغة استعلام الفيديو (VQL) لتحسين التمثيل عبر الوسائط للسياق المكاني، (ب) وحدة التعلّم التبايني (Contrastive Learning) للاستفادة من السياقات التباينية، و(ج) وحدة الاستدلال بالمنطق العام (Commonsense Reasoning) لدمج السياقات المبنية على المعرفة العامة. تُظهر التجارب الشاملة على هذه المهمة الصعبة فعالية كل مكوّن من مكونات النموذج، وتفوّق النموذج الكامل مقارنةً بالأساليب الأخرى، بالإضافة إلى قدرة النموذج على التعميم على مهام جديدة لتحليل الفيديو. تم إتاحة مجموعة البيانات والكود المصدر على الرابط التالي: https://github.com/JoseponLee/IntentQA.git