الفصل التفاعلي للأشياء في الفيديو: من التفاعل إلى القناع، الانتشار والتجميع مع الوعي بالاختلاف

نقدم إطار العمل التفاعلي المعياري VOS (MiVOS) الذي يفصل بين التفاعل إلى القناع وانتشار القناع، مما يسمح بقابلية تعميم أعلى وأداء أفضل. يتم تدريب الوحدة التفاعلية بشكل منفصل لتحويل التفاعلات المستخدم إلى قناع كائن، والذي يتم نشره زمنيًا بواسطة وحدة الانتشار الخاصة بنا باستخدام استراتيجية فلترة جديدة تُعرف بالفلترة الأعلى-$k$ في قراءة ذاكرة الزمان والمكان. للأخذ الفعال في نوايا المستخدم، تم اقتراح وحدة جديدة تُعرف بوحدة الاختلاف المدركة لتعلم كيفية دمج القناع قبل وبعد كل تفاعل بشكل صحيح، والتي يتم محاذاتها مع الإطارات المستهدفة باستخدام ذاكرة الزمان والمكان. نقيم طريقة عملنا بشكل نوعي وكمي باستخدام أشكال مختلفة من التفاعلات المستخدم (مثل الرسومات العشوائية، النقرات) على DAVIS لإظهار أن طريقة عملنا تتفوق على الخوارزميات الأكثر تقدمًا حاليًا بينما تتطلب عددًا أقل من التفاعلات الإطارية، مع ميزة إضافية في التعميم إلى أنواع مختلفة من التفاعلات المستخدم. نساهم بقاعدة بيانات VOS الاصطناعية الضخمة التي تحتوي على تقسيم دقيق للبكسل لـ 4.8 مليون إطار لتكون مرافقةً لأكواد المصدر الخاصة بنا تسهل البحث المستقبلي.