SeqFormer: تحويلة متسلسلة للفصل البصري للInstances

في هذه الدراسة، نقدّم نموذج SeqFormer للفصل البصري للInstances في الفيديو. يتبع SeqFormer مبدأ نموذج التحويل البصري (Vision Transformer) من خلال نمذجة العلاقات بين الـ Instances عبر الإطارات المختلفة في الفيديو. ومع ذلك، لاحظنا أن استخدم استعلام Instance منفصلًا يكفي لالتقاط تسلسل الزمني للـ Instances في الفيديو، بينما ينبغي تنفيذ آليات الانتباه بشكل منفصل لكل إطار. لتحقيق ذلك، يُحدّد SeqFormer موقع الـ Instance في كل إطار، ثم يجمّع المعلومات الزمنية لتعلم تمثيل قوي للـ Instance على مستوى الفيديو، والذي يستخدم لتنبؤ بتسلسل الأقنعة على كل إطار بشكل ديناميكي. يتم تحقيق تتبع الـ Instances بشكل طبيعي دون الحاجة إلى فروع تتبع أو معالجة ما بعدية. على مجموعة بيانات YouTube-VIS، حقق SeqFormer تقييمًا قدره 47.4 AP باستخدام هيكل أساس من نوع ResNet-50، و49.0 AP باستخدام هيكل أساس من نوع ResNet-101، دون أي إضافات إضافية. وتفوق هذا الأداء بشكل كبير على أفضل النتائج السابقة بـ 4.6 و4.4 على التوالي. بالإضافة إلى ذلك، عند دمجه مع نموذج Swin Transformer الذي تم اقتراحه حديثًا، حقق SeqFormer تقييمًا أعلى بكثير يبلغ 59.3 AP. نأمل أن يصبح SeqFormer قاعدة قوية تُحفّز الأبحاث المستقبلية في مجال الفصل البصري للـ Instances في الفيديو، وفي الوقت نفسه تُسهم في تطوير هذا المجال من خلال نموذج أكثر متانة ودقة ووضوحًا. يمكن الاطلاع على الكود المصدر عبر الرابط: https://github.com/wjf5203/SeqFormer.