SUTrack: نحو تتبع كائن واحد بسيط وموحد

في هذه الورقة، نقترح إطارًا بسيطًا ولكن موحدًا لتتبع الكائن الفردي (SOT)، يُسمّى SUTrack. يدمج هذا الإطار خمسة مهام لتتبع الكائن الفردي (التي تُعتمد على صور ملونة فقط، وصور ملونة وعمق، وصور ملونة وحرارية، وصور ملونة وأحداث، وصور ملونة ولغة) في نموذج موحد تم تدريبه في جلسة واحدة. وبسبب الطبيعة المختلفة للبيانات، يصمم معظم النماذج الحالية هياكل مخصصة وتدرب نماذج منفصلة لكل مهمة. يؤدي هذا التجزؤ إلى عمليات تدريب مكررة، وابتكارات تقنية متكررة، وتقاسم محدود للمعرفة بين القنوات المختلفة. على النقيض من ذلك، يُظهر SUTrack أن نموذجًا واحدًا يعتمد على تمثيل موحد للمدخلات يمكنه التعامل بفعالية مع مختلف مهام تتبع الكائن الفردي الشائعة، مما يُلغِي الحاجة إلى تصميمات مخصصة لكل مهمة أو جلسات تدريب منفصلة. علاوةً على ذلك، نُقدّم استراتيجية تدريب مساعدة للتمييز بين المهام، وتمثيلًا ناعمًا لنوع الرموز (soft token type embedding) لتعزيز أداء SUTrack بتكاليف إضافية ضئيلة. تُظهر التجارب أن SUTrack يتفوّق على النماذج السابقة المخصصة لكل مهمة في 11 مجموعة بيانات تمتد عبر خمسة مهام لتتبع الكائن الفردي. علاوةً على ذلك، نقدّم مجموعة من النماذج المصممة لتناسب الأجهزة الحافة، وكذلك النماذج عالية الأداء المدعومة ببطاقات رسوميات قوية، مع تحقيق توازن جيد بين السرعة والدقة. نأمل أن يُشكّل SUTrack أساسًا قويًا للبحث المُستقبلي في مجال النماذج الموحّدة لتتبع الكائنات. يمكن الوصول إلى الكود والنموذج عبر الرابط: github.com/chenxin-dlut/SUTrack.