HyperAIHyperAI
منذ 16 أيام

دمج المربعات والقناع: إطار عمل متعدد الكائنات للتعقب البصري الموحّد والتقسيم

Yuanyou Xu, Zongxin Yang, Yi Yang
الملخص

تُعدّ المتابعة الفضائية والزمنية لأي كائن معين هدفًا شائعًا في مجال متابعة الكائنات البصرية (VOT) وتقسيم الكائنات في الفيديو (VOS). وقد تم محاولة دمج المتابعة والتقسيم في بعض الدراسات، لكنها غالبًا ما تعاني من عدم توافق كامل بين المربعات (box) والخرائط (mask) في مرحلة التهيئة والتنبؤ، وتركز بشكل رئيسي على السيناريوهات ذات الكائن الواحد. ولحل هذه القيود، تُقدّم هذه الورقة إطارًا متكاملًا للكائنات المتعددة يعتمد على دمج الخريطة والمربع (Mask-box Integrated)، ويُسمّى MITS. أولاً، تم اقتراح وحدة تحديد موحدة تدعم كلاً من المرجع المربع والمرجع الخريطة في مرحلة التهيئة، حيث يتم استخلاص معلومات مفصلة عن الكائن من المربعات أو الحفاظ على المعلومات مباشرة من الخرائط. بالإضافة إلى ذلك، تم اقتراح مُحدّد مربعات دقيقة (pinpoint box predictor) جديد لتحسين دقة التنبؤ بالكائنات المتعددة، مما يُسهّل تعلّم تمثيلات مُوجّهة نحو الأهداف. وتجري معالجة جميع الكائنات المستهدفة بشكل متزامن من مرحلة الترميز إلى التوسع والفك، ضمن خط أنابيب موحد يخدم مهام VOT وVOS. أظهرت النتائج التجريبية أن MITS تحقق أداءً متفوّقًا على المستويات القياسية في كلا مجموعتي البيانات VOT وVOS. وبشكل ملحوظ، تفوق MITS على أفضل منافس سابق في مهام VOT بنسبة تقارب 6% على مجموعة اختبار GOT-10k، كما أحدث تحسينًا كبيرًا في أداء تهيئة المربعات في مجموعات بيانات VOS. يمكن الوصول إلى الشفرة المصدرية عبر الرابط: https://github.com/yoxu515/MITS.

دمج المربعات والقناع: إطار عمل متعدد الكائنات للتعقب البصري الموحّد والتقسيم | أحدث الأوراق البحثية | HyperAI