رسم كائنات علاقية مع تعلم مُوصى به من المعلم لوصف الفيديو

الاستفادة الكاملة من المعلومات المستمدة من كل من الرؤية واللغة أمر بالغ الأهمية في مهام وصف الفيديو. تعاني النماذج الحالية من تمثيل بصري غير كافٍ بسبب إهمال التفاعل بين الكائنات، وكذلك من تدريب غير كافٍ للكلمات ذات الصلة بالمحتوى بسبب مشكلة التوزيع الطويل الذيل (long-tailed). في هذه الورقة، نقترح نظامًا متكاملًا لوصف الفيديو يتضمن نموذجًا جديدًا واستراتيجية تدريب فعّالة. بشكل خاص، نُقدّم مشغلًا قائمًا على رسم بياني للعلاقة بين الكائنات (Object Relational Graph - ORG)، الذي يُمكّن من التقاط ميزات تفاعل أكثر تفصيلًا لتعزيز التمثيل البصري. في الوقت نفسه، نصمم طريقة تعلّم مُرشَّحَة من قبل المُدرّس (Teacher-Recommended Learning - TRL) للاستفادة القصوى من النموذج اللغوي الخارجي الناجح (External Language Model - ELM)، بهدف دمج المعرفة اللغوية الوافرة في نموذج الوصف. يقوم النموذج اللغوي الخارجي بإنشاء اقتراحات كلمات أكثر تشابهًا من الناحية الدلالية، مما يوسع الكلمات الصحيحة المُستخدمة في التدريب، لمعالجة مشكلة التوزيع الطويل الذيل. أظهرت التقييمات التجريبية على ثلاث معايير: MSVD وMSR-VTT وVATEX، أن نظام ORG-TRL المُقترح يحقق أداءً من الدرجة الأولى (state-of-the-art). كما تُظهر الدراسات التحليلية الموسعة والتصاميم البصرية فعالية النظام المقترح.