Command Palette
Search for a command to run...
MeMOTR: نموذج ترانسفورمر المدعوم بالذاكرة طويلة الأمد للتتبع متعدد الكائنات
MeMOTR: نموذج ترانسفورمر المدعوم بالذاكرة طويلة الأمد للتتبع متعدد الكائنات
Ruopeng Gao Limin Wang
الملخص
بصفتها مهمة في مجال الفيديو، يُتوقع من تتبع الكائنات المتعددة (MOT) أن يُجسّد المعلومات الزمنية للأجسام بشكل فعّال. ومع ذلك، فإن معظم الطرق الحالية تستفيد فقط من ميزات الكائنات بين الإطارات المجاورة بشكل صريح، بينما تفتقر إلى القدرة على نمذجة المعلومات الزمنية على المدى الطويل. في هذه الورقة، نُقدّم MeMOTR، وهو نموذج مُحسّن بالذاكرة الطويلة الأمد باستخدام معمارية Transformer، لتحسين تتبع الكائنات المتعددة. يُمكّننا نهجنا من جعل تضمينات المسار الخاص بالكائن نفسه أكثر استقرارًا ووضوحًا من خلال استغلال الذاكرة الطويلة الأمد باستخدام طبقة انتباه مخصصة للذاكرة. وقد أدى ذلك إلى تحسين كبير في قدرة نموذجنا على ربط الأهداف. أظهرت النتائج التجريبية على مجموعة بيانات DanceTrack أن MeMOTR يتفوّق بشكل ملحوظ على أحدث الطرق المُتاحة بنسبة 7.9% و13.0% على معياري HOTA وAssA على التوالي. علاوةً على ذلك، يتفوّق نموذجنا أيضًا على الطرق الأخرى القائمة على Transformer من حيث أداء الربط على مجموعة بيانات MOT17، كما يتميّز بأداء جيد في التعميم على مجموعة بيانات BDD100K. يمكن الوصول إلى الشفرة المصدرية عبر الرابط التالي: https://github.com/MCG-NJU/MeMOTR.