إطار عام لتقسيم الفيديو حسب المثيل

أصبح التعامل مع مقاطع الفيديو الطويلة ذات التسلسلات المعقدة والمحجوبة ظاهرة جديدة تواجهها مجتمع التجزئة الافتراضية للفيديو (VIS) في الآونة الأخيرة. ومع ذلك، تواجه الطرق الحالية قيودًا في معالجة هذه التحديات. نحن نرى أن أكبر عائق في النهج الحالية هو الفجوة بين التدريب والاستنتاج. ولسد هذه الفجوة بشكل فعّال، نقترح إطارًا عامًا لـ VIS يُدعى GenVIS، والذي يحقق أداءً متقدمًا على المعايير الصعبة دون الحاجة إلى تصميم هياكل معقدة أو إجراء معالجة إضافية بعد التدريب. وتشكل الاستراتيجية التدريبية الجوهريّة في GenVIS، والتي تتضمن نموذج تدريب مبني على الاستفسارات للتعلم التسلسلي مع تعيين جديد لعلامات الهدف. علاوة على ذلك، نقدّم ذاكرة تُمكّن من استخلاص المعلومات من الحالات السابقة بشكل فعّال. وبفضل الرؤية الجديدة التي تركز على بناء العلاقات بين الإطارات أو المقاطع المنفصلة، يمكن لـ GenVIS تنفيذها بسهولة بطريقة مباشرة (online) أو شبه مباشرة (semi-online). وقد قُمنا بتقييم منهجنا على معايير VIS الشهيرة، حيث حقق أداءً متميزًا على YouTube-VIS 2019/2021/2022 وOVIS (VIS المُحجب). وبشكل لافت، تفوقنا بشكل كبير على أفضل الأداءات الحالية على معيار VIS الطويل (OVIS)، مع تحسين بنسبة 5.6 نقطة في AP باستخدام هيكل عظمي ResNet-50. يمكن الوصول إلى الكود من خلال: https://github.com/miranheo/GenVIS.