HiTeA: التدريب المسبق للغة والفيديو المُراعي للزمن والهيكلية

أدى التدريب المسبق على الفيديو واللغة إلى تحسين أداء مهام الفيديو واللغة الهابطة المختلفة. ومع ذلك، فإن معظم الطرق السابقة ترث مباشرة أو تُعدّل النماذج النموذجية للتدريب المسبق على الصورة واللغة لتطبيقها على التدريب المسبق على الفيديو واللغة، مما لم يُستغل بالكامل السمة الفريدة للفيديو، وهي البُعد الزمني. في هذه الورقة، نقترح إطارًا للتدريب المسبق على الفيديو واللغة يُسمى HiTeA (HiTeA: Hierarchical Temporal-Aware)، يعتمد على مهام تدريب مسبق جديدة لتمثيل التوافق بين اللحظات والنصوص، وكذلك العلاقات الزمنية بين أزواج الفيديو والنصوص. بشكل محدد، نقترح مهمة استكشاف اللحظات عبر الوسائط (cross-modal moment exploration) لاستكشاف اللحظات داخل الفيديوهات، مما يؤدي إلى تمثيل دقيق للحظات الفيديو. علاوة على ذلك، يتم التقاط العلاقات الزمنية الطبيعية من خلال محاذاة أزواج الفيديو والنصوص ككل على مختلف دقة التوقيت باستخدام مهمة استكشاف العلاقات الزمنية متعددة الوسائط. بالإضافة إلى ذلك، نقدم اختبار التبديل (shuffling test) لتقييم الاعتماد الزمني للمجموعات البيانات والنماذج المستخدمة في التدريب المسبق على الفيديو واللغة. حققنا نتائج متقدمة على 15 مهمة معروفة في فهم وتكوين الفيديو واللغة، خاصة على المجموعات الزمنية الموجهة (مثل SSv2-Template و SSv2-Label) مع تحسن بنسبة 8.6% و11.1% على التوالي. كما أظهر HiTeA قدرة قوية على التعميم عند نقله مباشرة إلى المهام الهابطة بطريقة صفرية (zero-shot). سيتم إتاحة النماذج والعرض التوضيحي على منصة ModelScope.