HyperAIHyperAI
منذ 18 أيام

MDQE: استخراج تضمينات الاستعلام التمييزية لتقسيم الكائنات المغطاة في مقاطع فيديو صعبة

Minghan Li, Shuai Li, Wangmeng Xiang, Lei Zhang
MDQE: استخراج تضمينات الاستعلام التمييزية لتقسيم الكائنات المغطاة في مقاطع فيديو صعبة
الملخص

على الرغم من التقدم المحرز بشكل ملحوظ، تفشل طرق التجزئة المرئية للInstances (VIS) التي تعتمد على إدخال الفيديو بالقطعة (per-clip) في أداء جيد على مقاطع الفيديو الصعبة التي تحتوي على كائنات مُحَجَّبة ومشاهد مزدحمة. ويُعزى هذا إلى أن الاستعلامات الخاصة بالكائنات في هذه الطرق لا تُشَكِّل ترميزات تمييزية فعّالة للكائنات، مما يجعل مُقسِّم الاستعلام (query-based segmenter) غير قادر على التمييز بين الكائنات "الصعبة". لمعالجة هذه المشكلات، نقترح طريقة استخراج ترميزات الاستعلام التمييزية (MDQE) لتمكين التجزئة الدقيقة للكائنات المحجوبة في مقاطع الفيديو الصعبة. أولاً، نُحدِّد ترميزات الموضع وميزات المحتوى لاستعلامات الكائنات من خلال أخذ المعلومات السياقية المكانية وحركة الكائنات بين الإطارات بعين الاعتبار. ثانيًا، نقترح خسارة تباعد الأقنعة بين الكائنات (inter-instance mask repulsion loss) لتباعد كل كائن عن الكائنات القريبة غير المستهدفة. يُعدّ MDQE أول طريقة في مجال VIS تعتمد على إدخال بالقطعة (per-clip) تحقق أداءً متفوّقًا على مستوى الحالة (state-of-the-art) في مقاطع الفيديو الصعبة، مع أداء تنافسي في المقاطع البسيطة. على وجه التحديد، حقق MDQE باستخدام معمارية ResNet50 نتائج بلغت 33.0% و44.5% من متوسط الدقة على الأقنعة (mask AP) في مجموعتي بيانات OVIS وYouTube-VIS 2021 على التوالي. يمكن الاطلاع على كود MDQE عبر الرابط التالي: \url{https://github.com/MinghanLi/MDQE_CVPR2023}.