إعادة الكائن إلى تقسيم الكائنات في الفيديو

نقدم شبكة Cutie لفصل الكائنات في الفيديو (VOS) مع قراءة ذاكرة على مستوى الكائن، والتي تعيد تمثيل الكائن من الذاكرة إلى نتيجة فصل الكائنات في الفيديو. الأعمال الحديثة في مجال VOS تعتمد على قراءة ذاكرة على مستوى البكسل من الأسفل إلى الأعلى، والتي تعاني من الضوضاء المطابقة، خاصة في وجود ملهيات، مما يؤدي إلى أداء أقل في البيانات الأكثر تحديًا. بالمقابل، تقوم Cutie بقراءة ذاكرة على مستوى الكائن من الأعلى إلى الأسفل عن طريق تكييف مجموعة صغيرة من استعلامات الكائنات. من خلال هذه الاستعلامات، تتفاعل الشبكة بشكل متكرر مع الخصائص البكسلية من الأسفل إلى الأعلى باستخدام محول كائن استعلامي (qt، ومن هنا جاء اسم Cutie). تعمل استعلامات الكائنات كملخص عالي المستوى للكائن المستهدف، بينما يتم الحفاظ على خرائط الخصائص ذات الدقة العالية للحصول على فصل دقيق. بالإضافة إلى انتباه مasked بين المقدمة والخلفية، تقوم Cutie بفصل معنى الكائن الأمامي عن الخلفية بشكل نظيف. في مجموعة بيانات MOSE الصعبة، تحسن Cutie بنسبة 8.7 J&F مقارنة بـ XMem مع وقت تشغيل مشابه، وتحسن بنسبة 4.2 J&F مقارنة بـ DeAOT بينما تكون أسرع ثلاث مرات. يمكن الحصول على الرمز البرمجي من الرابط التالي: https://hkchengrex.github.io/Cutie