Mean Shift Mask Transformer للفصل بين نماذج الأشياء غير المرئية

فصل الأشياء غير المعروفة من الصور هو مهارة إدراكية حاسمة يجب على الروبوت اكتسابها. في مجال التلاعب بالروبوتات، يمكن أن يسهل هذا الأمر قبضة الروبوت وتلاعبه بالأجسام غير المعروفة. تعتبر تقنية تجميع الوسائط (mean shift clustering) من الطرق الشائعة المستخدمة في مهام فصل الصور. ومع ذلك، فإن خوارزمية تجميع الوسائط التقليدية ليست قابلة للتفاضل، مما يجعل دمجها في إطار تدريب شبكات العصبونات من النهاية إلى النهاية صعبًا. في هذا العمل، نقترح معمارية جديدة لتحويلة وسائط ماسك (Mean Shift Mask Transformer - MSMFormer)، والتي تحاكي خوارزمية تجميع الوسائط فون ميز-فيشر (von Mises-Fisher - vMF)، مما يسمح بتدريب مشترك واستدلال كلاً من مستخرج الميزات والجمع. المكون الرئيسي لها هو آلية انتباه الفراغ الزائد (hypersphere attention mechanism)، التي تقوم بتحديث استعلامات الأجسام على سطح كرة زائدة الأبعاد. لإظهار فعالية طريقتنا، نطبق MSMFormer على فصل الحالات للأجسام غير المعروفة. تظهر تجاربنا أن MSMFormer حققت أداءً تنافسيًا مقارنة بأحدث الطرق المستخدمة لفصل الحالات للأجسام غير المعروفة. صفحة المشروع، الملحق، الفيديو والكود متوفرون على الرابط: https://irvlutd.github.io/MSMFormer