RefVOS: نظرة أعمق على التعبيرات الإشارية لتقسيم كائنات الفيديو

يتمثل任务 في تقسيم الكائنات في الفيديو باستخدام عبارات إشارية (التحفيز اللغوي لتقسيم الكائنات في الفيديو) في إنتاج أقنعة ثنائية للجسم الذي تشير إليه العبارة اللغوية، بالنظر إلى عبارة لغوية وفيديو معين. يدعي عملنا أن المعايير الموجودة حاليًا المستخدمة لهذا المهمة تتكون في الغالب من حالات بسيطة، حيث يمكن تحديد الكائن المُشير إليه باستخدام عبارات بسيطة. تعتمد تحليلاتنا على تصنيف جديد للعبارات في مجموعتي بيانات DAVIS-2017 وActor-Action إلى عبارات إشارية بسيطة وغير بسيطة، مع تسمية العبارات غير البسيطة بسبع فئات معنوية للعبارات الإشارية. نستفيد من هذه البيانات لتحليل نتائج نموذج RefVOS، وهو شبكة عصبية جديدة تحقق نتائج تنافسية في مهمة التحفيز اللغوي لتقسيم الصور، ونتائج متميزة على مستوى العالم في مهمة التحفيز اللغوي لتقسيم الكائنات في الفيديو. تشير دراستنا إلى أن التحديات الرئيسية لهذا المهمة مرتبطة بفهم الحركة والإجراءات الثابتة.