BootsTAP: التدريب المستند إلى الاستقراء للتعقب بأي نقطة

لمنح النماذج فهماً أعمق للفيزياء والحركة، من المفيد تمكينها من إدراك كيفية حركة وتشوه الأسطح الصلبة في المشاهد الحقيقية. يمكن صياغة هذا المفهوم على شكل تتبع أي نقطة (TAP)، حيث يتطلب من الخوارزمية تتبع أي نقطة على الأسطح الصلبة في مقطع فيديو، وقد تُتتبع بشكل كثيف في الفضاء والزمن. لا تتوفر حاليًا بيانات تدريب موثوقة على نطاق واسع لـ TAP إلا في البيئات المحاكاة، والتي تتميز بتنوع محدود للأشياء والحركة. في هذا العمل، نُظهر كيف يمكن لبيانات واقعية كبيرة الحجم، غير مُسَمَّاة وغير مُنظَّمة، أن تُحسِّن أداء نموذج TAP بحد أدنى من التغييرات المعمارية، باستخدام نموذج تعلم ذاتي يعتمد على هيكل "طالب-مُدرِّس". ونُظهر أداءً متفوقًا على مستوى الحد الأقصى في معيار TAP-Vid، متفوِّقًا على النتائج السابقة بفارق كبير: على سبيل المثال، يرتفع أداء TAP-Vid-DAVIS من 61.3% إلى 67.4%، ويصعد أداء TAP-Vid-Kinetics من 57.2% إلى 62.5%. لمزيد من التصوير البصري، يُرجى زيارة صفحة المشروع لدينا على الرابط: https://bootstap.github.io/