LoSh: شبكة تنبؤ مزدوجة للنصوص الطويلة والقصيرة لتقسيم الكائنات المرجعية في الفيديو

يهدف التصنيف المرئي للكائنات المرجعية (RVOS) إلى تحديد الكائن المستهدف المذكور في تعبير نصي معطى ضمن مقطع فيديو. عادةً ما يحتوي التعبير النصي على وصف معقد لخصائص الكائن من حيث المظهر، والحركة، والعلاقة مع الكائنات الأخرى. وبسبب هذا التعقيد، يُعد من الصعب على نموذج RVOS استيعاب جميع هذه السمات بشكل مناسب في المقطع المرئي؛ في الواقع، غالبًا ما يُعطي النموذج أولوية أكبر للسمات البصرية المرتبطة بالحركة والعلاقة. وقد يؤدي ذلك إلى توقعات غير كاملة أو خاطئة لشكل الكائن المستهدف. لحل هذه المشكلة، نقوم باتخاذ تعبير نصي قصير مركّز حول الموضوع من التعبير النصي الطويل الأصلي. ويحتفظ هذا التعبير القصير فقط بالمعلومات المتعلقة بمظهر الكائن المستهدف، بحيث نتمكن من استخدامه لتركيز انتباه النموذج على مظهر الكائن. ونسمح للنموذج بإجراء تنبؤات مجمعة باستخدام كل من التعبير النصي الطويل والقصير؛ كما نُدمج وحدة انتباه متقاطعة بين الطويل والقصير لتمكين التفاعل بين الميزات المجمعة، بالإضافة إلى استخدام خسارة تقاطع التنبؤات الطويلة والقصيرة لتنظيم التنبؤات المجمعة. وبالإضافة إلى التحسين في الجانب اللغوي، نقدّم أيضًا خسارة اتساق بصرية أمامية-خلفية، والتي تستخدم تدفقات الضوئية لتحويل الميزات البصرية بين الإطارات المُعلّمة وإطاراتها المجاورة زمنيًا لضمان الاتساق. وقد بُنيت طريقة عملنا على أساس طريقتين حديثتين ومتقدّمتين من حيث الأداء. وتوسّعت التجارب على مجموعات بيانات A2D-Sentences، Refer-YouTube-VOS، JHMDB-Sentences، وRefer-DAVIS17، وقد أظهرت النتائج تحسينات ملحوظة لطريقة العمل. ويمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/LinfengYuan1997/Losh.