HyperAIHyperAI
منذ 17 أيام

مُحَوِّل الرؤية الفعّال زمنيًا للتقسيم البصري للInstances في الفيديو

Shusheng Yang, Xinggang Wang, Yu Li, Yuxin Fang, Jiemin Fang, Wenyu Liu, Xun Zhao, Ying Shan
مُحَوِّل الرؤية الفعّال زمنيًا للتقسيم البصري للInstances في الفيديو
الملخص

في الآونة الأخيرة، حققت نماذج المحولات البصرية (Vision Transformer) نجاحًا كبيرًا في مهام التعرف البصري على مستوى الصورة. ولنمذجة المعلومات الزمنية الحاسمة داخل قطعة فيديو بشكل فعّال وكفؤ، نقترح نموذجًا يُسمى "محول البصر الفعّال زمنيًا" (Temporally Efficient Vision Transformer - TeViT) مخصصًا لفصل المُثَلّثات الفيديو (Video Instance Segmentation - VIS). على عكس الطرق السابقة القائمة على المحولات لـ VIS، يمتاز TeViT بأنه تقريبًا خالٍ من التحويلات التلافيفية (convolution-free)، ويتكون من هيكل أساسي (backbone) مبني على المحول، ورأس مُخصص لفصل المُثَلّثات الفيديو يستند إلى الاستفسارات (query-based). في مرحلة الهيكل الأساسي، نقترح آلية "نقل المراسِل" القريبة من الصفر من المعلمات (nearly parameter-free messenger shift mechanism) لدمج معلومات السياق الزمني مبكرًا. أما في مراحل الرأس، فنُقدّم آلية تفاعل استفسارات مشاركة المعلمات عبر الفضاء والزمن (parameter-shared spatiotemporal query interaction mechanism) لبناء علاقة تقابل واحد لواحد بين المُثَلّثات الفيديو والاستفسارات. وبذلك، يستخدم TeViT بالكامل معلومات السياق الزمني على مستوى الإطارات وعلى مستوى المُثَلّثات، ويحقق قدرة قوية على النمذجة الزمنية مع تكلفة حسابية إضافية ضئيلة جدًا. على ثلاثة معايير شائعة لـ VIS، وهي YouTube-VIS-2019 وYouTube-VIS-2021 وOVIS، حقق TeViT نتائج من الطراز الرائد (state-of-the-art) مع الحفاظ على سرعة استجابة عالية، مثلاً 46.6 AP بسرعة 68.9 إطارًا في الثانية (FPS) على YouTube-VIS-2019. يمكن الوصول إلى الكود عبر الرابط: https://github.com/hustvl/TeViT.