HyperAIHyperAI

Command Palette

Search for a command to run...

SeqFormer: تحويلة متسلسلة للفصل البصري للInstances

Junfeng Wu Yi Jiang Song Bai Wenqing Zhang Xiang Bai

الملخص

في هذه الدراسة، نقدّم نموذج SeqFormer للفصل البصري للInstances في الفيديو. يتبع SeqFormer مبدأ نموذج التحويل البصري (Vision Transformer) من خلال نمذجة العلاقات بين الـ Instances عبر الإطارات المختلفة في الفيديو. ومع ذلك، لاحظنا أن استخدم استعلام Instance منفصلًا يكفي لالتقاط تسلسل الزمني للـ Instances في الفيديو، بينما ينبغي تنفيذ آليات الانتباه بشكل منفصل لكل إطار. لتحقيق ذلك، يُحدّد SeqFormer موقع الـ Instance في كل إطار، ثم يجمّع المعلومات الزمنية لتعلم تمثيل قوي للـ Instance على مستوى الفيديو، والذي يستخدم لتنبؤ بتسلسل الأقنعة على كل إطار بشكل ديناميكي. يتم تحقيق تتبع الـ Instances بشكل طبيعي دون الحاجة إلى فروع تتبع أو معالجة ما بعدية. على مجموعة بيانات YouTube-VIS، حقق SeqFormer تقييمًا قدره 47.4 AP باستخدام هيكل أساس من نوع ResNet-50، و49.0 AP باستخدام هيكل أساس من نوع ResNet-101، دون أي إضافات إضافية. وتفوق هذا الأداء بشكل كبير على أفضل النتائج السابقة بـ 4.6 و4.4 على التوالي. بالإضافة إلى ذلك، عند دمجه مع نموذج Swin Transformer الذي تم اقتراحه حديثًا، حقق SeqFormer تقييمًا أعلى بكثير يبلغ 59.3 AP. نأمل أن يصبح SeqFormer قاعدة قوية تُحفّز الأبحاث المستقبلية في مجال الفصل البصري للـ Instances في الفيديو، وفي الوقت نفسه تُسهم في تطوير هذا المجال من خلال نموذج أكثر متانة ودقة ووضوحًا. يمكن الاطلاع على الكود المصدر عبر الرابط: https://github.com/wjf5203/SeqFormer.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp