TAPIR: تتبع أي نقطة مع التهيئة الإطارية وتحسين زمني

نقدّم نموذجًا جديدًا لتتبع أي نقطة (TAP) يُعدّ فعّالًا في تتبع أي نقطة مُطلوبة على أي سطح مادي طوال تسلسل فيديو. يعتمد نهجنا على مرحلتين: (1) مرحلة التوافق، التي تحدد بشكل مستقل نقطة مطابقة مناسبة للنقطة المطلوبة في كل إطار آخر، و(2) مرحلة التحسين، التي تُحدّث المسار والسمات الخاصة بالاستعلام بناءً على الترابطات المحلية. وقد أظهر النموذج المُنتج تفوقًا كبيرًا على جميع الطرق الأساسية في معيار TAP-Vid، حيث سجّل تحسينًا مطلقًا يقارب 20% في متوسط معامل جاكارد (AJ) على مجموعة DAVIS. يُمكّن هذا النموذج من الاستنتاج السريع في تسلسلات فيديو طويلة وعالية الدقة. وباستخدام وحدة معالجة رسومات حديثة، يمكن لتنفيذنا تتبع النقاط بسرعة تفوق الوقت الفعلي، ويمكن توسيعه بسهولة ليدعم مقاييس فيديو أعلى. وبالاعتماد على المسارات عالية الجودة المستخلصة من مجموعة بيانات كبيرة، نُظهر نموذجًا تجريبيًا باستخدام نموذج التشتت (diffusion)، قادر على إنتاج مسارات من صور ثابتة، مما يتيح إنشاء رسوم متحركة واقعية. يمكن العثور على عروض مرئية، وشفرة المصدر، والنموذج المُدرّب مسبقًا على صفحة المشروع الخاصة بنا.