دمج التتبع القصير والطويل الأمد باستخدام الهياكل الرسومية

تعني متابعة الكائنات في مقاطع فيديو طويلة بفعالية حل طيف من المشكلات، بدءًا من الترابط قصير الأمد للكائنات غير المُحَجَّبة وصولاً إلى الترابط الطويل الأمد للكائنات التي تتعرض للحجب ثم تعود إلى المشهد لاحقًا. غالبًا ما تكون الطرق التي تعالج هاتين المهمتين منفصلة، وتُصمم خصيصًا لسيناريوهات محددة، والأساليب الأفضل أداءً غالبًا ما تكون مزيجًا من تقنيات متعددة، ما يؤدي إلى حلول معقدة هندسيًا وتفتقر إلى العامية. في هذا العمل، نتساءل عن الحاجة إلى الأساليب الهجينة، ونُقدِّم SUSHI، وهي مُتتبع كائنات متعددة موحَّدة وقابلة للتوسع. يعالج نهجنا مقاطع فيديو طويلة من خلال تقسيمها إلى هرمية من المقاطع الفرعية، مما يُمكّن من التوسع العالي. نستفيد من الشبكات العصبية الرسومية لمعالجة جميع مستويات الهرمية، ما يجعل نموذجنا موحَّدًا عبر المقياس الزمني وعالي التعميم. وبذلك، نحقق تحسينات كبيرة مقارنةً بأفضل النماذج الحالية على أربع مجموعات بيانات متنوعة. يمكن الوصول إلى الكود والنماذج الخاصة بنا عبر الرابط: bit.ly/sushi-mot.