Command Palette
Search for a command to run...
استرجاع الفيديو-الظرف باستخدام تضمينات الظرف-الفعل التركيبية
استرجاع الفيديو-الظرف باستخدام تضمينات الظرف-الفعل التركيبية
Thomas Hummel Otniel-Bogdan Mercea A. Sophia Koepke Zeynep Akata
الملخص
استرجاع الأدوات التي تصف حركة في الفيديو يشكل خطوة أساسية نحو فهم دقيق للفيديو. نقترح إطارًا لاسترجاع الأدوات من الفيديو (وكذلك العكس) يربط بين متجهات الفيديو ومتجهات النص المركبة المطابقة لها والتي تحتوي على الأدوات والأفعال في فضاء متجهي مشترك. يتم تعلم متجهات النص المركب للأدوات والأفعال باستخدام آلية التحكم المتبقية، بالإضافة إلى هدف تدريبي جديد يتكون من خسائر الثلاثيات وهدف الانحدار. حققت طريقتنا أداءً رائدًا في خمسة مقاييس حديثة لاسترجاع الأدوات من الفيديو. علاوة على ذلك، قمنا بتقديم تقسيمات لمجموعات البيانات لقياس أداء استرجاع الأدوات من الفيديو للتركيبات غير المشاهدة من الأدوات والأفعال على جزء من مجموعتي بيانات MSR-VTT Adverbs وActivityNet Adverbs. يتفوق الإطار المقترح لدينا على جميع الأعمال السابقة في مهمة التعميم الخاصة باسترجاع الأدوات من الفيديوهات للتركيبات غير المشاهدة من الأدوات والأفعال. يمكن الحصول على الكود وتقسيمات مجموعات البيانات من https://hummelth.github.io/ReGaDa/.