HyperAIHyperAI
منذ 18 أيام

BoxVIS: التجزئة الزمنية للInstances باستخدام تسميات الصناديق

Minghan Li, Lei Zhang
BoxVIS: التجزئة الزمنية للInstances باستخدام تسميات الصناديق
الملخص

من المكلف للغاية ويتطلب جهدًا كبيرًا تسمية قناع الكائنات بكامل بكسلات الفيديو. ونتيجة لذلك، يكون عدد التسميات البكسلية في مجموعات بيانات التجزئة البصرية للInstances في الفيديو (VIS) الحالية صغيرة جدًا، مما يحد من قدرة النماذج المدربة على التعميم. أما الحل البديل، فهو أرخص بكثير، يتمثل في استخدام المستطيلات المحيطة (Bounding Boxes) لتسمية الكائنات في الفيديو. مستوحى من النجاح الأخير في التجزئة الصورية للInstances المدعومة بالمستطيلات، نُعدّل النماذج الرائدة المدعومة بالبكسلات في مجال VIS لتصبح مدعومة بالمستطيلات، ونُطلق عليها نموذج Baseline للـ BoxVIS، ونلاحظ تدهورًا طفيفًا في الأداء. ومن ثم، نقترح تحسين أداء BoxVIS من جهتين. أولاً، نقترح خسارة موجهة بمركز المستطيل (STPA) لتحسين التماسك المكاني والزمني في توقع قناعات الكائنات. ثانيًا، نقوم بجمع مجموعة بيانات أكبر حجمًا مُسمّاة بالمستطيلات (BVISD)، من خلال دمج مقاطع الفيديو من معايير VIS الحالية، وتحويل الصور من مجموعة بيانات COCO إلى مقاطع فيديو افتراضية قصيرة. وباستخدام BVISD المقترحة وخسارة STPA، يحقق نموذج BoxVIS المدرب لدينا أداءً بنسبة 43.2% و29.0% من AP للقناع على مجموعتي التحقق من YouTube-VIS 2021 وOVIS على التوالي. ويُظهر أداءً مماثلاً في توقع قناعات الكائنات، مع قدرة تعميم أفضل مقارنةً بالنماذج الرائدة المدعومة بالبكسلات، مع استخدام 16% فقط من وقت التسمية والتكلفة. يمكن العثور على الكود والبيانات في: \url{https://github.com/MinghanLi/BoxVIS}.