HyperAIHyperAI

Command Palette

Search for a command to run...

تحديد اللحظات في الفيديو الطويل عبر الإرشاد متعدد الوسائط

Wayner Barrios Mattia Soldan Alberto Mario Ceballos-Arroyo Fabian Caba Heilbron Bernard Ghanem

الملخص

الإدخال الحديث لقواعد البيانات الضخمة والطويلة MAD و Ego4Dمكّن الباحثين من دراسة أداء الطرق الحالية الأكثر تقدماً في تأصيل الفيديو في الإعداد الطويل، معنتائج مثيرة للاهتمام: فشلت الطرق الحالية للتأصيل بمفردها في التعامل مع هذهالمهمة والإعداد الصعب بسبب عدم قدرتها على معالجة سلاسل الفيديو الطويلة. في هذا البحث، نقترح طريقة لتحسين أداءتأصيل اللغة الطبيعية في مقاطع الفيديو الطويلة من خلال تحديد وإزالة النوافذ غير القابلة للوصف. نصمم إطار عمل موجه للتأصيل يتكون مننموذج توجيهي ونموذج تأصيلي أساسي. يركز النموذج التوجيهي على النوافذ القابلة للوصف، بينما يقوم النموذج التأصيلي الأساسي بتحليلنوافذ زمنية قصيرة لتحديد أي الأقسام تتطابق بدقة مع استعلام اللغة المعطى. نقدم تصميمين للنموذج التوجيهي: مستقل عن الاستعلام (Query-Agnostic) ومرتبط بالاستعلام (Query-Dependent)،والذي يوازن بين الكفاءة والدقة. تظهر التجارب أن طريقتنا المقترحة تتفوق على النماذج الأكثر تقدماً بنسبة 4.1% في MAD و4.52% في Ego4D (NLQ)على التوالي. يمكن الحصول على الرمز والمعلومات وميزات الصوت اللازمة لإعادة إنتاج تجاربنا من:https://github.com/waybarrios/guidance-based-video-grounding.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تحديد اللحظات في الفيديو الطويل عبر الإرشاد متعدد الوسائط | مستندات | HyperAI