Tem-Adapter: تكييف التدريب المسبق للصورة-النص لاستجابة الأسئلة في الفيديو

أظهرت نماذج التدريب المسبق التي تعتمد على الفيديو واللغة نجاحًا ملحوظًا في توجيه مهام الإجابة على الأسئلة المتعلقة بالفيديو (VideoQA). ومع ذلك، نظرًا لطول تسلسلات الفيديو، فإن تدريب النماذج الكبيرة القائمة على الفيديو يتطلب تكاليف أعلى بكثير مقارنة بتدريب النماذج القائمة على الصور. وهذا يدفعنا إلى الاستفادة من المعرفة المستمدة من التدريب المسبق القائم على الصور، بالرغم من الفجوات الواضحة بين مجالات الصور والفيديو. ولسد هذه الفجوات، نقترح في هذا البحث نموذج Tem-Adapter، الذي يمكّن من تعلّم الديناميكيات الزمنية والمعاني المعقدة من خلال مُعدّل زمني بصري ومحول دلالي نصي. على عكس الطرق التقليدية لنقل المعرفة المُدرّبة مسبقًا التي تركز فقط على هدف المهمة النهائية، يُدخل المُعدّل الزمني مهمة إضافية موجهة باللغة وتعتمد على التوليد التتابعي، بهدف تعزيز تعلّم الاعتماد الزمني، وذلك من خلال التنبؤ بالحالات المستقبلية استنادًا إلى أدلة تاريخية وتوجيه لغوي يصف تسلسل الأحداث. علاوة على ذلك، ولتقليل الفجوة الدلالية وتعديل التمثيل النصي لتحسين وصف الأحداث، نقدّم مُعدّل دلالي يُصمم أولًا نموذجًا (template) يدمج أزواج الأسئلة والإجابات كوصف للأحداث، ثم يتعلم مشفرًا مُحولًا (Transformer decoder) باستخدام التسلسل الكامل للفيديو كمرجع لتقويم التمثيل. قمنا بتقييم Tem-Adapter وطرق التدريب المسبق المختلفة على بحثين معياريين لـ VideoQA، وأظهرت النتائج المحسّنة بشكل ملحوظ فعالية طريقة التصميم المقترحة.