HyperAIHyperAI
منذ 3 أشهر

قسّم كل كائن مرجعي في الفضاءات المكانية والزمنية

{Ping Luo, Zehuan Yuan, Huchuan Lu, Bin Yan, Yi Jiang, Jiannan Wu}
قسّم كل كائن مرجعي في الفضاءات المكانية والزمنية
الملخص

تُهدف مهام التجزئة الكائنية القائمة على المرجع، وتشمل تجزئة الصور المرجعية (RIS)، وتجزئة كائنات الفيديو المرجعية (RVOS)، وتجزئة كائنات الفيديو (VOS)، إلى تجزئة كائن محدد باستخدام اللغة أو أقنعة مُعلّمة كمرجع. وعلى الرغم من التقدم الكبير المحرز في كل مجال على حدة، فإن الطرق الحالية تم تصميمها وتطويرها بشكل مخصص لكل مهمة، واتّبعت مسارات مختلفة، مما يعيق إمكانية تفعيل القدرات متعددة المهام لهذه المهام. في هذا العمل، ننهي الوضع الحالي المُجزأ ونُقدّم UniRef لتوحيد المهام الثلاث لتجزئة الكائنات القائمة على المرجع باستخدام بنية واحدة. وتمثّل القلب النابض في نهجنا هو التكامل متعدد الاتجاهات (multiway-fusion) لمعالجة المهام المختلفة وفقًا لمرجعها المحدد. ثم يتم اعتماد بنية مُوحّدة من نوع Transformer لأداء التجزئة على مستوى المُثَل (instance-level segmentation). وبفضل التصميم الموحّد، يمكن لـ UniRef التدريب المشترك على مجموعة واسعة من المعايير، ويمكنها أداء مهام متعددة بسلاسة أثناء التشغيل من خلال تحديد المرجع المقابل. وقد قُمنا بتقييم الشبكة المدربة مشتركًا على مجموعة متنوعة من المعايير. وتشير النتائج التجريبية الواسعة إلى أن UniRef تحقق أداءً من الدرجة الأولى (state-of-the-art) في مهام RIS وRVOS، وتحظى بأداء تنافسي في VOS باستخدام شبكة واحدة فقط.