HyperAIHyperAI
منذ 2 أشهر

شبكة الانحدار الكثيفة لتحديد موقع الفيديو

Zeng, Runhao ; Xu, Haoming ; Huang, Wenbing ; Chen, Peihao ; Tan, Mingkui ; Gan, Chuang
شبكة الانحدار الكثيفة لتحديد موقع الفيديو
الملخص

نتناول مشكلة ترسيخ الفيديو من استفسارات اللغة الطبيعية. التحدي الرئيسي في هذه المهمة هو أن مقطع تدريبيًا واحدًا قد يحتوي فقط على عدد قليل من الإطارات الابتدائية/النهائية المُشَرَّحة التي يمكن استخدامها كأمثلة إيجابية لتدريب النموذج. معظم الأساليب التقليدية تقوم بتدريب تصنيف ثنائي مباشرة باستخدام مثل هذه البيانات غير المتوازنة، مما يؤدي إلى نتائج ضعيفة. الفكرة الرئيسية لهذا البحث هي استخدام المسافات بين الإطار داخل الحقيقة الأرضية والإطار الابتدائي (أو النهائي) كإشراف كثيف لتحسين دقة ترسيخ الفيديو. بشكل خاص، صممنا شبكة انحدار كثيفة جديدة (Dense Regression Network - DRN) لانحدار المسافات من كل إطار إلى الإطار الابتدائي (أو النهائي) لمقطع الفيديو الذي يصفه الاستفسار. كما اقترحنا وحدة رأس بسيطة ولكن فعالة للانحدار IoU لاعتبار جودة تحديد الموقع للنتائج المرسخة (أي، معامل تقاطع على الاتحاد IoU بين الموقع المتوقع والحقيقة الأرضية). تظهر النتائج التجريبية أن أسلوبنا يتفوق بشكل كبير على أفضل الأساليب الحالية في ثلاثة مجموعات بيانات (أي، Charades-STA، ActivityNet-Captions، و TACoS).