DeVIS: جعل التحولات المُتغيرة العمل في التجزئة المستندة إلى المثال للفيديوهات

يُعالج التمييز البصري للInstances في الفيديو (VIS) بشكل متكامل مهام الكشف عن الكائنات المتعددة، والتتبع، والتمييز في تسلسلات الفيديو. في الماضي، اتبعت طرق VIS نمطًا مُجزَّأًا في تصميمها المعماري، يُحاكي التقسيم بين هذه المهام الفرعية، مما أدى إلى فقدان حل متكامل. وقد مكّنت نماذج Transformer حديثًا من صياغة المهمة الكاملة لـ VIS كمشكلة تنبؤ مجموعات واحدة. ومع ذلك، فإن التعقيد التربيعي للطرق القائمة على Transformer يتطلب أوقات تدريب طويلة، ومتطلبات ذاكرة عالية، ومعالجة خرائط ميزات من مقياس منخفض فقط. ويوفر الانتباه القابل للتشويه بديلًا أكثر كفاءة، لكن تطبيقه في المجال الزمني أو في مهمة التمييز لم يُستكشف بعد.في هذا العمل، نقدّم DeVIS (Deformable VIS)، وهي طريقة لـ VIS تستفيد من الكفاءة والأداء العالي لشبكات Transformer القابلة للتشويه. ولتمكين الاستدلال المشترك على جميع مهام VIS عبر عدة إطارات، نقدّم الانتباه القابل للتشويه متعدد المقاييس الزمني مع استعلامات كائنات واعية بالـ Instance. كما نُقدّم رأسًا جديدًا لتمييز الماسكات في الصور والفيديوهات، يعتمد على ميزات متعددة المقاييس، ونُنفّذ معالجة فيديو قريبة من الزمن الحقيقي باستخدام تتبع قطع متعددة المُحفّزات. تقلل DeVIS من متطلبات الذاكرة وأوقات التدريب، وتحقق نتائج من الطراز الرائد على مجموعة بيانات YouTube-VIS 2021، وكذلك على مجموعة OVIS الصعبة.يمكن الوصول إلى الكود من خلال: https://github.com/acaelles97/DeVIS.