HyperAIHyperAI

Command Palette

Search for a command to run...

استرجاع الفيديو-الظرف باستخدام تضمينات الظرف-الفعل التركيبية

Thomas Hummel Otniel-Bogdan Mercea A. Sophia Koepke Zeynep Akata

الملخص

استرجاع الأدوات التي تصف حركة في الفيديو يشكل خطوة أساسية نحو فهم دقيق للفيديو. نقترح إطارًا لاسترجاع الأدوات من الفيديو (وكذلك العكس) يربط بين متجهات الفيديو ومتجهات النص المركبة المطابقة لها والتي تحتوي على الأدوات والأفعال في فضاء متجهي مشترك. يتم تعلم متجهات النص المركب للأدوات والأفعال باستخدام آلية التحكم المتبقية، بالإضافة إلى هدف تدريبي جديد يتكون من خسائر الثلاثيات وهدف الانحدار. حققت طريقتنا أداءً رائدًا في خمسة مقاييس حديثة لاسترجاع الأدوات من الفيديو. علاوة على ذلك، قمنا بتقديم تقسيمات لمجموعات البيانات لقياس أداء استرجاع الأدوات من الفيديو للتركيبات غير المشاهدة من الأدوات والأفعال على جزء من مجموعتي بيانات MSR-VTT Adverbs وActivityNet Adverbs. يتفوق الإطار المقترح لدينا على جميع الأعمال السابقة في مهمة التعميم الخاصة باسترجاع الأدوات من الفيديوهات للتركيبات غير المشاهدة من الأدوات والأفعال. يمكن الحصول على الكود وتقسيمات مجموعات البيانات من https://hummelth.github.io/ReGaDa/.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp