VLG-Net: شبكة مطابقة الفيديو واللغة لتحديد موقع الفيديو

تهدف ترسيخ استفسارات اللغة في مقاطع الفيديو إلى تحديد الفترة الزمنية (أو اللحظة) ذات الصلة دلالياً باستفسار اللغة. يُطلب من الحل لهذه المهمة الصعبة فهم المحتوى الدلالي لمقاطع الفيديو والاستفسارات، بالإضافة إلى التفكير الدقيق في تفاعلاتهما المتعددة الأوضاع. الفكرة الرئيسية لدينا هي إعادة صياغة هذا التحدي كمشكلة مطابقة الرسوم البيانية الخوارزمية. بفضل التقدم الحديث في شبكات العصبونات الرسمية، نقترح الاستفادة من شبكات التلافيف الرسمية لنمذجة المعلومات المرئية والنصية وتوحيدها دلالياً. لتمكين التبادل المتبادل للمعلومات بين الأوضاع، نصمم شبكة مطابقة جديدة بين الفيديو واللغة (VLG-Net) لمطابقة رسوم الفيديو والاستفسارات البيانية. تتضمن المكونات الأساسية رسوم تمثيلية يتم بناؤها فوق مقاطع الفيديو ورموز الاستفسارات بشكل منفصل وتستخدم لنمذجة العلاقات داخل الوضع الواحد. يتم اعتماد طبقة مطابقة الرسوم البيانية لنمذجة السياق عبر الأوضاع ودمج البيانات متعددة الأوضاع. أخيراً، يتم إنشاء مرشحات اللحظات باستخدام تجميع الانتباه المقنّع للحظة عن طريق دمج خصائص المقاطع الغنية باللحظة. نثبت الأداء المتفوق على أفضل طرق الترسيخ الحالية على ثلاثة مجموعات بيانات شائعة لتحديد الموقع الزمني للحظات في مقاطع الفيديو باستخدام استفسارات اللغة: ActivityNet-Captions، TACoS، وDiDeMo.