DiffusionTrack: نموذج تشتت المجموعة النقطية للتتبع البصري للأجسام

تُعرّف المُتتبعات الشبيهة (Siamese) أو المُتتبعات القائمة على المحولات (transformer) عادةً تتبع الكائن البصري كمشكلة كشف واحدة (one-shot detection)، أي تحديد موقع الكائن المستهدف في نموذج تقييم واحد فقط في كل إطار. وعلى الرغم من النجاح المُبهر الذي أظهرته هذه المُتتبعات، إلا أنها قد تتعرض بسهولة للانحراف نحو عناصر مُربكة ذات مظهر مشابه، ناتجًا عن نموذج التقييم الفردي الذي لا يحتوي على آلية تصحيح ذاتي. ولحل هذه المشكلة، نُعيد صياغة تتبع الكائنات البصرية كعملية تصفية تشتت مبنية على مجموعة نقاط، ونُقدّم مُتتبعًا جديدًا يستند إلى تعلّم توليديًا يُدعى DiffusionTrack. يتميّز DiffusionTrack بخاصيتين جذّابتين: 1) يتبع نموذجًا جديدًا للاتجاه من الضوضاء إلى الهدف، يعتمد على خطوات متعددة لتصفية التشتت لتحديد موقع الهدف بطريقة بحث ديناميكي في كل إطار. 2) يُمثّل عملية التشتت باستخدام تمثيل مبني على مجموعة نقاط، مما يسمح بمعالجة أفضل للتغيرات في المظهر، وبالتالي تحقيق تحديد موقع أكثر دقة. إحدى الفوائد الثانوية هي تبسيط العمليات اللاحقة، مثل التخلص من نظام عقوبة النافذة (window penalty). وبلا إضافات مُضافة، يحقق DiffusionTrack أداءً رائدًا مقارنة بأفضل المُتتبعات الحالية، مع أداء في الوقت الحقيقي. يمكن الاطلاع على الكود عبر الرابط: https://github.com/VISION-SJTU/DiffusionTrack.