التعلم عبر التقاطع للتقسيم الفوري للInstances في الفيديو

نمذجة السياق البصري الزمني عبر الإطارات تُعد أمرًا بالغ الأهمية لمهام فصل محددات الفيديو (VIS) وأخرى ذات صلة بفهم الفيديو. في هذه الورقة، نقترح نموذجًا سريعًا للعمل المباشر في فصل محددات الفيديو يُدعى CrossVIS. بالنسبة لنمذجة المعلومات الزمنية في VIS، نقدّم خطة تعلّم متقاطعة جديدة تستخدم الميزة الخاصة بالمحدد في الإطار الحالي لتوصيف موقع نفس المحدد بدقة في الإطارات الأخرى. على عكس الطرق السابقة، لا تتطلب خطة التعلّم المتقاطع أي معلمات إضافية لتعزيز الميزات. وبدمجها مع خسارة فصل المحددات، تتيح خطة التعلّم المتقاطع تعلّمًا فعّالًا للعلاقة بين المحددات والبكسل عبر الإطارات، مما يُحقّق تحسينًا مجانيًا أثناء الاستدلال. بالإضافة إلى ذلك، نقترح فرعًا جديدًا للتمثيل المحدد العالمي المتوازن، لضمان توصيل المحددات في الوقت الفعلي بدقة وأكثر استقرارًا. أجرينا تجارب واسعة على ثلاث معايير صعبة لـ VIS، وهي: YouTube-VIS-2019، وOVIS، وYouTube-VIS-2021، لتقييم طرقنا. وفقًا للمعرفة الحالية، يحقق CrossVIS أفضل أداء بين جميع الطرق المباشرة لـ VIS، ويُظهر توازنًا مرضيًا بين التأخير (التأخير الزمني) والدقة. وسيتم توفير الكود لتسهيل الأبحاث المستقبلية.