استكشاف نماذج التمايز النصية إلى الفيديو المُدرَّبة مسبقًا لفصل كائنات الفيديو المرجعية

في هذه الورقة، نستكشف التمثيلات البصرية الناتجة عن نموذج توليد الفيديو من النص (T2V) المُدرَّب مسبقًا باستخدام تشتت (diffusion) لمهام فهم الفيديو. نفترض أن التمثيل الخفي المُتعلم من نموذج T2V التوليدي المُدرَّب مسبقًا يحتوي على معاني غنية وتوافق زمني متماسك، مما يسهل بشكل طبيعي مهام فهم الفيديو. ونُثبت هذا الافتراض من خلال مهمة تقسيم كائنات الفيديو المرجعية الكلاسيكية (R-VOS). نقدّم إطارًا جديدًا يُسمّى "VD-IT"، مصممًا خصيصًا باستخدام مكونات مُعدّة بدقة بناءً على نموذج T2V المُدرَّب مسبقًا وثابت. وبشكل خاص، يستخدم VD-IT المعلومات النصية كمدخل شرطي، مما يضمن التماسك المعنوي عبر الزمن لتقديم مطابقة زمنية دقيقة للInstances. كما يدمج VD-IT رموز الصور كمدخلات نصية مكملة، مما يُثري مجموعة الميزات ويُنتج قوالب مفصلة ودقيقة. علاوة على ذلك، بدلًا من استخدام الضوضاء العشوائية القياسية، نقترح التنبؤ بضوضاء مخصصة للفيديو باستخدام وحدة إضافية للتنبؤ بالضوضاء، والتي تساعد في الحفاظ على جودة الميزات وتحسين جودة التقسيم. من خلال تجارب واسعة النطاق، لاحظنا بشكل مفاجئ أن النماذج التوليدية الثابتة لـ T2V، على عكس المُشغّلات الشائعة للفيديو (مثل Video Swin Transformer) التي تُدرَّب مسبقًا باستخدام مهام تمييزية للصور/الفيديو، تمتلك إمكانات أفضل للحفاظ على التوافق المعنوي والاتساق الزمني. وعلى معايير معيارية موجودة، يحقق VD-IT نتائج تنافسية للغاية، متفوقًا على العديد من الطرق المتطورة الحالية. يمكن الوصول إلى الكود من خلال: https://github.com/buxiangzhiren/VD-IT.