مُعادِل مُتَحَدِّثٌ بالنص لفهم الفيديو الطويل

في هذه الورقة، نقدّم وحدة إعادة تهيئة الفيديو المعتمدة على النص (TCR) التي تستخدم مشغّلًا بصريًا مُدرّبًا مسبقًا وثابتًا، إلى جانب نموذج لغة كبير (LLM)، لمعالجة تسلسلات فيديو طويلة لأداء مهمة معينة. تقوم وحدة TCR بتحديد السمات البصرية ذات الصلة من الفيديو بناءً على شرط نصي، ثم تقدّم هذه السمات إلى نموذج لغة كبير لإنشاء رد نصي. وبفضل تصميمها الخفيف واستخدامها للاهتمام المتقاطع، يمكن 통ق TCR معالجة أكثر من 100 إطار في كل مرة باستخدام الاهتمام العادي دون الحاجة إلى تنفيذ مُحسَّن. ونقدّم المساهمات التالية: (أ) نصمم معمارية عينة تعتمد على المُحَوِّل (Transformer) قادرة على معالجة فيديوهات طويلة بشروط محددة وفقًا للمهمة، إلى جانب طريقة تدريب تمكنها من جسر النماذج البصرية واللغوية المُدرَّبة مسبقًا؛ (ب) نحدد المهام التي يمكن أن تستفيد من رؤية فيديو أطول؛ (ج) نختبر تأثيرها تجريبيًا على مجموعة واسعة من مهام التقييم، بما في ذلك NextQA وEgoSchema وتحدي EGO4D-LTA.