اختبار الزمن: غرس نموذج الفيديو واللغة بشعور بالزمن

يمثل نمذجة وفهم الزمن تحديًا مستمرًا في النماذج الحديثة لفهم الفيديو. ومع ظهور اللغة كمحرك رئيسي نحو التعميم القوي، أصبح من الضروري أن تمتلك النماذج الأساسية للفيديو واللغة إدراكًا للزمن. في هذا البحث، نتناول جانبًا محددًا من فهم الزمن: اتساق ترتيب الزمن كما يُستمد من العلاقات "قبل/بعد". ونُظهر أن سبع نماذج موجودة للفيديو واللغة تواجه صعوبة في فهم حتى هذه العلاقات الزمنية البسيطة. ثم نتساءل عما إذا كان من الممكن تزويد هذه النماذج الأساسية بإدراك زمني دون الحاجة إلى إعادة تدريبها من الصفر. ولتحقيق ذلك، نقترح وصفة تكييف زمني مبنية على نموذج واحد من هذه النماذج، وهو VideoCLIP، وذلك من خلال عملية ما بعد التدريب على كمية صغيرة من البيانات الفيديو-النصية. قمنا بتقييم معدوم النموذج (zero-shot) للنماذج المُعدَّلة على ستة مجموعات بيانات لثلاثة مهام تطبيقية تختلف في درجة الحاجة إلى إدراك الزمن. ولاحظنا تحسنًا مُشجِّعًا في الأداء، خاصةً في المهام التي تتطلب مستوى أعلى من الإدراك الزمني. يُعد عملنا الخطوة الأولى نحو استكشاف وإدخال إدراك للزمن في النماذج الحالية للفيديو واللغة، دون الحاجة إلى تدريب مكثف من حيث البيانات والقدرة الحسابية من البداية.