HyperAIHyperAI
منذ 16 أيام

UniRef++: تجزئة كل كائن مرجعي في الفضاءات المكانية والزمنية

Jiannan Wu, Yi Jiang, Bin Yan, Huchuan Lu, Zehuan Yuan, Ping Luo
UniRef++: تجزئة كل كائن مرجعي في الفضاءات المكانية والزمنية
الملخص

تهدف مهام التجزئة الكائنية القائمة على المرجع، مثل تجزئة الصور المُشار إليها (RIS)، وتجزئة الصور القائمة على عدد قليل من الأمثلة (FSS)، وتجزئة كائنات الفيديو المُشار إليها (RVOS)، وتجزئة كائنات الفيديو (VOS)، إلى تجزئة كائن محدد باستخدام اللغة أو أقنعة مُعلمة كمرجع. وعلى الرغم من التقدم الكبير المحرز في كل مجال على حدة، فإن الطرق الحالية تم تصميمها وتطويرها بشكل مخصص لكل مهمة، وتتجه في اتجاهات مختلفة، مما يعيق إمكانية تفعيل القدرات متعددة المهام لهذه المهام. في هذا العمل، ننهي الوضع الحالي المُجزأ ونُقدّم UniRef++ لتوحيد المهام الأربعة لتجزئة الكائنات القائمة على المرجع باستخدام معمارية واحدة. وتركز طريقة عملنا على وحدة UniFusion المُقترحة، التي تُنفّذ تجميعًا متعدد الاتجاهات للتعامل مع المهام المختلفة وفقًا لمرجعاتها المحددة. ثم يتم اعتماد معمارية مُوحّدة قائمة على Transformer لتحقيق التجزئة على مستوى المُثَلّل (instance-level). وبفضل التصميم الموحّد، يمكن لـ UniRef++ التدريب المشترك على مجموعة واسعة من المعايير، ويمكنها أيضًا إنجاز مهام متعددة بسهولة أثناء التشغيل من خلال تحديد المرجع المقابل. قمنا بتقييم نماذجنا الموحّدة على مجموعة متنوعة من المعايير. وأظهرت النتائج التجريبية الواسعة أن UniRef++ تحقق أداءً متقدمًا على مستوى الحد الأقصى في مهام RIS وRVOS، كما تُظهر أداءً تنافسيًا في مهام FSS وVOS باستخدام شبكة مشتركة للبارامترات. علاوة على ذلك، نُظهر أن وحدة UniFusion المُقترحة يمكن دمجها بسهولة في النموذج الأساسي المتقدم الحالي SAM، والحصول على نتائج مرضية باستخدام تدريب مُعدّل بفعالية من حيث المُعاملات (parameter-efficient finetuning). يمكن الوصول إلى الشيفرة والنماذج عبر الرابط: \url{https://github.com/FoundationVision/UniRef}.