تقسيم الأشياء المتحركة عبر تمثيل متعدد الطبقات متمركز حول الكائن

هدف هذا البحث هو تطوير نموذج قادر على اكتشاف وتتبع وتقسيم عدة أشياء متحركة في مقطع فيديو. نقدم أربع إسهامات: أولاً، نقدم نموذج تقسيم متمركز حول الأشياء مع تمثيل طبقات مرتبة حسب العمق. يتم تنفيذ هذا النموذج باستخدام نوع من هندسة الترانسفورمر التي تستقبل التدفق البصري، حيث يحدد كل متجه استعلامي شكلًا وطبقة له في جميع أنحاء الفيديو. يمكن لهذا النموذج أن يكتشف بفعالية عدة أشياء متحركة ويتعامل مع الإخفاء المتبادل؛ ثانيًا، نقدم خط أنابيب قابل للتوسع لإنتاج بيانات تدريبية صناعية متعددة الأشياء عبر تركيب الطبقات، والتي تُستخدم لتدريب النموذج المقترح، مما يقلل بشكل كبير من الحاجة إلى التسميات الشاقة واليدوية ويدعم التعميم من البيئة الافتراضية إلى الحقيقية (Sim2Real)؛ ثالثًا، نقوم بدراستين تحليليتين شاملتين، تظهران أن النموذج قادر على تعلم الدوام الكائن والاتساق الشكلي الزمني ويمكنه التنبؤ بأقنعة التقسيم غير المادية (amodal segmentation masks)؛ رابعًا، نقيم نموذجنا الذي تم تدريبه فقط على البيانات الصناعية على مقاييس التقسيم القياسية للفيديو مثل DAVIS و MoCA و SegTrack و FBMS-59، ونحقق أفضل الأداء بين الأساليب الموجودة التي لا تعتمد على أي تسميات يدوية. ومع التكيف أثناء الاختبار، نلاحظ زيادة إضافية في الأداء.