النظر السريع والتركيز: التحفيز الذاكرةي للإجابة على الأسئلة في مقاطع الفيديو متعددة الأحداث

أصبح التصنيف السؤال-الفيديو (VideoQA) أداة حيوية لتقييم قدرة الوكلاء على فهم السلوكيات اليومية للإنسان. وعلى الرغم من النجاح الأخير للنماذج الكبيرة للرؤية واللغة في العديد من المهام متعددة الوسائط، فإن التفكير في المواقف المعقدة المتعلقة بالفيديوهات التي تتضمن تفاعلات متعددة بين البشر والأجسام لا يزال يمثل تحديًا كبيرًا. على النقيض من ذلك، يمكن للبشر التغلب على هذه المهمة بسهولة من خلال استخدام سلسلة من ذكريات الحوادث كنقاط مرجعية لتحديد لحظات محددة مرتبطة بالسؤال بسرعة، مما يُمكّنهم من التفكير والاستنتاج. لمحاكاة هذه الاستراتيجية الفعّالة للتفكير، نقترح نموذج Glance-Focus. إحدى الطرق البسيطة هي تطبيق نموذج كشف الحركات لتوقع مجموعة من الحركات كذكريات رئيسية. ومع ذلك، فإن هذه الحركات التي تنتمي إلى مجموعة محدودة من الكلمات تُعدّ صعبة التعميم على مختلف مجالات الفيديو. بدلًا من ذلك، نُدرّب نموذجًا مكوّنًا من معالج (Encoder) ومرسل (Decoder) لتوليد مجموعة من ذكريات الحوادث الديناميكية في المرحلة الأولى (المرحلة المبكرة). وبالإضافة إلى استخدام التوافق الثنائي المُشَوَّه (supervised bipartite matching) للحصول على ذكريات الحوادث، قمنا أيضًا بتصميم طريقة غير مراقبة لتوليد الذكريات، بهدف التخلص من الاعتماد على التصنيفات المسبقة للحوادث. ثم، في المرحلة الثانية (المرحلة التركيزية)، تُستخدم هذه ذكريات الحوادث كجسر لبناء علاقة ارتباط بين الأسئلة التي تتضمن مفاهيم حدثية عالية المستوى والمحتوى الطويل والتفصيلي للفيديو على المستوى المنخفض. عند إدخال السؤال، يبدأ النموذج بتركيزه على ذكرة الحدث الرئيسية المولدة، ثم يركز على اللحظة الأكثر صلة بالسؤال من خلال آلية الانتباه المتقاطع متعددة المستويات التي صممناها. أجرينا تجارب واسعة على أربع معايير لاختبار التصنيف السؤال-الفيديو التي تتضمن حوادث متعددة، بما في ذلك STAR وEgoTaskQA وAGQA وNExT-QA. أظهر النموذج المقترح نتائج رائدة في المجال (state-of-the-art)، وتفوق على النماذج الكبيرة الحالية في مختلف المهام الاستدلالية الصعبة. يمكن الوصول إلى الشفرة والنموذج عبر الرابط: https://github.com/ByZ0e/Glance-Focus.