STC: التعلم المتناقض المكاني الزمني لفصل المحددات الفيديوية

يُعد تصنيف الفيديو للInstances (VIS) مهمة تتطلب في آنٍ واحد تصنيفًا، وتقسيمًا، وربطًا للInstances داخل مقاطع الفيديو. تعتمد الطرق الحديثة لـ VIS على خطوط أنابيب معقدة لتحقيق هذه الغاية، بما في ذلك عمليات مرتبطة بـ RoI أو التحويلات الثلاثية الأبعاد. على النقيض من ذلك، نقدم إطارًا بسيطًا وفعالًا لـ VIS من مرحلة واحدة، مستندًا إلى طريقة تصنيف الInstances CondInst، مع إضافة رأس تتبع إضافي. ولتحسين دقة ربط الInstances، نقترح استراتيجية جديدة للتعلم التبايني المزدوج الاتجاه في الفضاء والزمن لتمثيلات التتبع عبر الإطارات. علاوةً على ذلك، نستخدم خطة اتساق زمني على مستوى كل Instance لضمان نتائج متسقة زمنيًا. وقد أثبتت التجارب التي أُجريت على مجموعات البيانات YouTube-VIS-2019 وYouTube-VIS-2021 وOVIS-2021 فعالية وكفاءة الطريقة المقترحة. نأمل أن يُصبح الإطار المُقترح بديلاً بسيطًا وقويًا لعدة مهام أخرى مرتبطة بربط الInstances في الفيديو.