HyperAIHyperAI
منذ 2 أشهر

تحديد اللحظات في الفيديو الطويل عبر الإرشاد متعدد الوسائط

Barrios, Wayner ; Soldan, Mattia ; Ceballos-Arroyo, Alberto Mario ; Heilbron, Fabian Caba ; Ghanem, Bernard
تحديد اللحظات في الفيديو الطويل عبر الإرشاد متعدد الوسائط
الملخص

الإدخال الحديث لقواعد البيانات الضخمة والطويلة MAD و Ego4Dمكّن الباحثين من دراسة أداء الطرق الحالية الأكثر تقدماً في تأصيل الفيديو في الإعداد الطويل، معنتائج مثيرة للاهتمام: فشلت الطرق الحالية للتأصيل بمفردها في التعامل مع هذهالمهمة والإعداد الصعب بسبب عدم قدرتها على معالجة سلاسل الفيديو الطويلة. في هذا البحث، نقترح طريقة لتحسين أداءتأصيل اللغة الطبيعية في مقاطع الفيديو الطويلة من خلال تحديد وإزالة النوافذ غير القابلة للوصف. نصمم إطار عمل موجه للتأصيل يتكون مننموذج توجيهي ونموذج تأصيلي أساسي. يركز النموذج التوجيهي على النوافذ القابلة للوصف، بينما يقوم النموذج التأصيلي الأساسي بتحليلنوافذ زمنية قصيرة لتحديد أي الأقسام تتطابق بدقة مع استعلام اللغة المعطى. نقدم تصميمين للنموذج التوجيهي: مستقل عن الاستعلام (Query-Agnostic) ومرتبط بالاستعلام (Query-Dependent)،والذي يوازن بين الكفاءة والدقة. تظهر التجارب أن طريقتنا المقترحة تتفوق على النماذج الأكثر تقدماً بنسبة 4.1% في MAD و4.52% في Ego4D (NLQ)على التوالي. يمكن الحصول على الرمز والمعلومات وميزات الصوت اللازمة لإعادة إنتاج تجاربنا من:https://github.com/waybarrios/guidance-based-video-grounding.