HyperAIHyperAI
منذ 11 أيام

Transformer يلتقي المُتَّبِع: استغلال السياق الزمني للتعقب البصري المتماسك

Ning Wang, Wengang Zhou, Jie Wang, Houqaing Li
Transformer يلتقي المُتَّبِع: استغلال السياق الزمني للتعقب البصري المتماسك
الملخص

في تتبع الكائنات في الفيديو، توجد سياقات زمنية غنية بين الإطارات المتتالية، والتي تم تجاهلها إلى حد كبير في المُتتبعات الحالية. في هذا العمل، نقوم بربط الإطارات الفيديو الفردية واستكشاف السياقات الزمنية بينها من خلال بنية تحويلية (transformer) لتحقيق تتبع كائنات قوي. على عكس الاستخدام التقليدي للتحويلية في مهام معالجة اللغة الطبيعية، نفصل ما بين مشغل التحويلية (encoder) وموّصلها (decoder) إلى فرعين متوازيين، ونقوم بتصميمهما بعناية ضمن أنماط تتبع تشبه نموذج ساياميز (Siamese). يعزز مشغل التحويلية (encoder) نماذج الكائن المستهدَف من خلال تعزيز الميزات القائمة على الانتباه، مما يسهم في إنتاج نموذج تتبع عالي الجودة. أما مُوصل التحويلية (decoder)، فينقل إشارات التتبع من النماذج السابقة إلى الإطار الحالي، ما يُسهّل عملية البحث عن الكائن. يتميز إطار عملنا المدعوم بالتحويلية ببساطته، ويُدرّس بطريقة نهائية (end-to-end). وباستخدام التحويلية المقترحة، يمكن لطريقة مطابقة ساياميز بسيطة أن تتفوّق على أحدث المُتتبعات الأفضل أداءً. وبدمج التحويلية المُقترحة مع نموذج تتبع تمييزي حديث، يُحقّق هذا الأسلوب سجلاً جديداً من السجلات القياسية على معايير تتبع شائعة.

Transformer يلتقي المُتَّبِع: استغلال السياق الزمني للتعقب البصري المتماسك | أحدث الأوراق البحثية | HyperAI