شبكة تفاعل هرمية لفصل كائن الفيديو من التعبيرات الإشارية

في هذه الورقة، نستعرض مشكلة تقسيم كائنات الفيديو من خلال التعبيرات المرجعية (VOSRE). تُعد الطرق التقليدية عادةً تقوم بدمج متعدد الوسائط استنادًا إلى السمات اللغوية والسمات البصرية المستخرجة من الطبقة العلوية لمشغل البصر، مما يحد من قدرة هذه النماذج على تمثيل المدخلات متعددة الوسائط على مستويات مختلفة من الحدّة المعجمية والمكانية. لمعالجة هذه المشكلة، نقدم شبكة تفاعل هيراركية نهائية (HINet) لمشكلة VOSRE. تعتمد نموذجنا على الهرم المميز الناتج عن مشغل البصر لتكوين مستويات متعددة من السمات متعددة الوسائط، مما يتيح تمثيلًا أكثر مرونة للمفاهيم اللغوية المختلفة (مثل صفات الكائنات وفئاتها) على مستويات متعددة من السمات متعددة الوسائط. علاوة على ذلك، نستخرج إشارات الكائنات المتحركة من المدخل البصري المبني على التدفق البصري، ونستخدمها كمؤشرات مكملة للتركيز على الكائن المرجعي وتقليل التأثير الخلفي من خلال آلية تمرير حركي. على عكس الطرق السابقة، يتيح هذا النهج نموذجنا إجراء تنبؤات مباشرة دون الحاجة إلى إدخال الفيديو بأكمله. وعلى الرغم من بساطته، يتفوق نموذج HINet المقترح على الحالة السابقة المتطورة في مجموعات بيانات DAVIS-16 وDAVIS-17 وJ-HMDB بالنسبة لمهام VOSRE، مما يُظهر فعاليته وعامة تطبيقه.