استرجاع الفيديو-الظرف باستخدام تضمينات الظرف-الفعل التركيبية

استرجاع الأدوات التي تصف حركة في الفيديو يشكل خطوة أساسية نحو فهم دقيق للفيديو. نقترح إطارًا لاسترجاع الأدوات من الفيديو (وكذلك العكس) يربط بين متجهات الفيديو ومتجهات النص المركبة المطابقة لها والتي تحتوي على الأدوات والأفعال في فضاء متجهي مشترك. يتم تعلم متجهات النص المركب للأدوات والأفعال باستخدام آلية التحكم المتبقية، بالإضافة إلى هدف تدريبي جديد يتكون من خسائر الثلاثيات وهدف الانحدار. حققت طريقتنا أداءً رائدًا في خمسة مقاييس حديثة لاسترجاع الأدوات من الفيديو. علاوة على ذلك، قمنا بتقديم تقسيمات لمجموعات البيانات لقياس أداء استرجاع الأدوات من الفيديو للتركيبات غير المشاهدة من الأدوات والأفعال على جزء من مجموعتي بيانات MSR-VTT Adverbs وActivityNet Adverbs. يتفوق الإطار المقترح لدينا على جميع الأعمال السابقة في مهمة التعميم الخاصة باسترجاع الأدوات من الفيديوهات للتركيبات غير المشاهدة من الأدوات والأفعال. يمكن الحصول على الكود وتقسيمات مجموعات البيانات من https://hummelth.github.io/ReGaDa/.