SOC: تجميع كائنات مدعوم بالدلالات لفصل كائنات الفيديو التي تُشير إليها

يدرس هذا البحث تقسيم كائنات الفيديو المرجعية (RVOS) من خلال تعزيز التوافق البصري-اللغوي على مستوى الفيديو. تُعالج الطرق الحديثة مهمة RVOS كمشكلة تنبؤ متسلسل، حيث تُنفَّذ التفاعل متعدد الوسائط والتقسيم لكل إطار بشكل منفصل. ومع ذلك، فإن غياب الرؤية الشاملة للمحتوى الفيديوي يؤدي إلى صعوبات في الاستفادة الفعالة من العلاقات بين الإطارات وفهم الوصف النصي للتغيرات الزمنية للكائنات. لمعالجة هذه المشكلة، نقترح نموذج التجميع الكائني المدعوم بالمعاني (SOC)، الذي يجمّع محتوى الفيديو والإرشادات النصية لتحقيق نمذجة زمنية موحدة وتوافق بين الوسائط. من خلال ربط مجموعة من تمثيلات الكائنات على مستوى الإطار برموز لغوية، يُسهّل SOC تعلم الفضاء المشترك عبر الوسائط والخطوات الزمنية. علاوةً على ذلك، نقدّم إشرافًا تباينيًا متعدد الوسائط لمساعدة بناء فضاء مشترك متماسك على مستوى الفيديو. أجرينا تجارب واسعة على معايير RVOS الشهيرة، وتفوّقت طريقة我们的 على أفضل النماذج الحالية في جميع المعايير بفارق كبير. بالإضافة إلى ذلك، يعزز التركيز على الاتساق الزمني استقرار التقسيم ومرونة طريقة العمل عند معالجة التعبيرات النصية التي تتضمن تغيرات زمنية. سيتم إتاحة الكود.