HyperAIHyperAI

Command Palette

Search for a command to run...

VLG-Net: شبكة مطابقة الفيديو واللغة لتحديد موقع الفيديو

Mattia Soldan* Mengmeng Xu* Sisi Qu* Jesper Tegner Bernard Ghanem

الملخص

تهدف ترسيخ استفسارات اللغة في مقاطع الفيديو إلى تحديد الفترة الزمنية (أو اللحظة) ذات الصلة دلالياً باستفسار اللغة. يُطلب من الحل لهذه المهمة الصعبة فهم المحتوى الدلالي لمقاطع الفيديو والاستفسارات، بالإضافة إلى التفكير الدقيق في تفاعلاتهما المتعددة الأوضاع. الفكرة الرئيسية لدينا هي إعادة صياغة هذا التحدي كمشكلة مطابقة الرسوم البيانية الخوارزمية. بفضل التقدم الحديث في شبكات العصبونات الرسمية، نقترح الاستفادة من شبكات التلافيف الرسمية لنمذجة المعلومات المرئية والنصية وتوحيدها دلالياً. لتمكين التبادل المتبادل للمعلومات بين الأوضاع، نصمم شبكة مطابقة جديدة بين الفيديو واللغة (VLG-Net) لمطابقة رسوم الفيديو والاستفسارات البيانية. تتضمن المكونات الأساسية رسوم تمثيلية يتم بناؤها فوق مقاطع الفيديو ورموز الاستفسارات بشكل منفصل وتستخدم لنمذجة العلاقات داخل الوضع الواحد. يتم اعتماد طبقة مطابقة الرسوم البيانية لنمذجة السياق عبر الأوضاع ودمج البيانات متعددة الأوضاع. أخيراً، يتم إنشاء مرشحات اللحظات باستخدام تجميع الانتباه المقنّع للحظة عن طريق دمج خصائص المقاطع الغنية باللحظة. نثبت الأداء المتفوق على أفضل طرق الترسيخ الحالية على ثلاثة مجموعات بيانات شائعة لتحديد الموقع الزمني للحظات في مقاطع الفيديو باستخدام استفسارات اللغة: ActivityNet-Captions، TACoS، وDiDeMo.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp