HyperAIHyperAI
منذ 2 أشهر

استرجاع الفيديو-الظرف باستخدام تضمينات الظرف-الفعل التركيبية

Thomas Hummel; Otniel-Bogdan Mercea; A. Sophia Koepke; Zeynep Akata
استرجاع الفيديو-الظرف باستخدام تضمينات الظرف-الفعل التركيبية
الملخص

استرجاع الأدوات التي تصف حركة في الفيديو يشكل خطوة أساسية نحو فهم دقيق للفيديو. نقترح إطارًا لاسترجاع الأدوات من الفيديو (وكذلك العكس) يربط بين متجهات الفيديو ومتجهات النص المركبة المطابقة لها والتي تحتوي على الأدوات والأفعال في فضاء متجهي مشترك. يتم تعلم متجهات النص المركب للأدوات والأفعال باستخدام آلية التحكم المتبقية، بالإضافة إلى هدف تدريبي جديد يتكون من خسائر الثلاثيات وهدف الانحدار. حققت طريقتنا أداءً رائدًا في خمسة مقاييس حديثة لاسترجاع الأدوات من الفيديو. علاوة على ذلك، قمنا بتقديم تقسيمات لمجموعات البيانات لقياس أداء استرجاع الأدوات من الفيديو للتركيبات غير المشاهدة من الأدوات والأفعال على جزء من مجموعتي بيانات MSR-VTT Adverbs وActivityNet Adverbs. يتفوق الإطار المقترح لدينا على جميع الأعمال السابقة في مهمة التعميم الخاصة باسترجاع الأدوات من الفيديوهات للتركيبات غير المشاهدة من الأدوات والأفعال. يمكن الحصول على الكود وتقسيمات مجموعات البيانات من https://hummelth.github.io/ReGaDa/.

استرجاع الفيديو-الظرف باستخدام تضمينات الظرف-الفعل التركيبية | أحدث الأوراق البحثية | HyperAI