HyperAIHyperAI
منذ 17 أيام

CTVIS: تدريب متسق للفصل البصري للقطع في الفيديو عبر الإنترنت

Kaining Ying, Qing Zhong, Weian Mao, Zhenhua Wang, Hao Chen, Lin Yuanbo Wu, Yifan Liu, Chengxiang Fan, Yunzhi Zhuge, Chunhua Shen
CTVIS: تدريب متسق للفصل البصري للقطع في الفيديو عبر الإنترنت
الملخص

تلعب التمييز بين التضمينات الفردية دورًا محوريًا في ربط الكيانات عبر الزمن لتصنيف الفيديو الفردي المباشر (VIS). يُدرَّس تعلم التضمينات الفردية بشكل مباشر من خلال خسارة التباين (contrastive loss) المحسوبة بناءً على عناصر التباين (CIs)، وهي مجموعات من التضمينات المرجعية (anchor) والإيجابية (positive) والسلبية (negative). تستخدم الطرق الحديثة لتصنيف VIS المباشر عناصر التباين المستمدة من إطار مرجعي واحد فقط، وهو ما نرى أنه غير كافٍ لتعلم تضمينات مميزة للغاية. بشكل مفهوم، يمكن أن يكون أحد الاستراتيجيات الممكنة لتحسين عناصر التباين هو تكرار مرحلة الاستنتاج أثناء التدريب. لتحقيق ذلك، نقترح استراتيجية تدريب بسيطة ولكن فعالة، تُسمى "التدريب الموحّد لتصنيف الفيديو الفردي المباشر" (CTVIS)، والتي تركز على محاذاة مسارات التدريب والاستنتاج فيما يتعلق ببناء عناصر التباين. بشكل محدد، تقوم CTVIS ببناء عناصر التباين من خلال الرجوع إلى التضمينات المُعدّلة بالزمن (momentum-averaged embedding) وآليات التخزين في بنك الذاكرة، بالإضافة إلى إضافة ضوضاء إلى التضمينات ذات الصلة. يسمح هذا التوسيع بمقارنة موثوقة بين تضمينات الكيانات الحالية وتمثيلات تاريخية مستقرة، مما يمنح ميزة في نمذجة تحديات VIS مثل الاختباء، وإعادة التعرف، والتشوه. من الناحية التجريبية، تتفوق CTVIS على النماذج الرائدة في مجال VIS بنسبة تصل إلى +5.0 نقطة على ثلاث معايير معيارية لـ VIS، بما في ذلك YTVIS19 (55.1% AP)، وYTVIS21 (50.1% AP)، وOVIS (35.5% AP). علاوة على ذلك، نلاحظ أن الفيديوهات الافتراضية المُحوّلة من الصور يمكن أن تُستخدم لتدريب نماذج قوية تفوق النماذج المدروسة بالكامل.