ActBERT: تعلّم تمثيلات الفيديو-النص العالمية-المحلية

في هذه الورقة، نقدّم نموذج ActBERT لتعلم التمثيلات المشتركة بين الفيديو والنص بشكل ذاتي من بيانات غير مُعلَّمة. أولاً، نستفيد من المعلومات الإجرائية العالمية لتسريع التفاعلات المتبادلة بين النصوص اللغوية والكائنات المحلية في المناطق. ويُمكّن هذا النهج من استخلاص أدلة بصرية عامة ومحليّة من التسلسلات المرئية والوصف النصي المرتبط بها، مما يُمكّن من نمذجة علاقات دقيقة بين البصريات والنصوص. ثانيًا، نقدّم كتلة مُحَوَّلة متشابكة (ENT) لتمثيل ثلاث مصادر للمعلومات: الإجراءات العالمية، والكائنات المحلية في المناطق، والوصف اللغوي. يتم اكتشاف الت corresponدنس بين المستوى العام والمحلي من خلال استخلاص ذكٍّ للإشارات من المعلومات السياقية. ويُفرض على التمثيل المشترك بين الفيديو والنص أن يكون واعيًا بالكائنات الدقيقة، وكذلك بالنية البشرية العامة. وقد قمنا بتوثيق قدرة ActBERT على التعميم في المهام اللاحقة المتعلقة بالفيديو واللغة، مثل استرجاع مقاطع الفيديو المرتبطة بالنصوص، وتوليد العناوين للفيديوهات، والإجابة على الأسئلة المتعلقة بالفيديوهات، وتقسيم الإجراءات، وتحديد خطوات الإجراء. وقد أظهر ActBERT تفوقًا كبيرًا على أحدث النماذج، مما يدل على تفوقه في تعلم التمثيلات بين الفيديو والنص.