الترابط المكاني-زماني للفيديو بقيادة السياق

مهمة تأصيل الفيديو المكاني-الزماني (STVG) تهدف إلى تحديد أنبوب مكاني-زماني لحالة معينة بناءً على استعلام نصي. رغم التقدم الحاصل، تعاني الطرق الحالية بسهولة من المشتتات أو التغيرات الكبيرة في مظهر الأشياء في الفيديوهات بسبب نقص المعلومات الكافية عن الأشياء من النص، مما يؤدي إلى تدهور الأداء. لمعالجة هذا، نقترح إطارًا جديدًا يُعرف باسم تأصيل الفيديو المكاني-الزماني المسترشد بالسياق (CG-STVG)، والذي يستخرج سياق الحالة التمييزية للأجسام في الفيديوهات ويستخدمه كإرشاد إضافي لتحديد الموقع المستهدف. يكمن جوهر CG-STVG في وحدتين تم تصميمهما خصيصًا، وهما: توليد سياق الحالة (ICG)، الذي يركز على اكتشاف المعلومات السياقية البصرية للحالة (في كل من الشكل والحركة)، وتحسين سياق الحالة (ICR)، الذي يهدف إلى تحسين سياق الحالة من ICG بإزالة المعلومات غير ذات الصلة أو حتى الضارة من السياق. أثناء عملية التأصيل، يتم نشر ICG وICR في كل مرحلة فك رموز هندسة Transformer لتعلم سياق الحالة. بشكل خاص، يتم تقديم سياق الحالة المتعلم من مرحلة فك الرموز الأولى إلى المرحلة التالية، ويتم استخدامه كإرشاد يحتوي على ميزات الجسم الغنية والتمييزية لتعزيز الوعي المستهدف في ميزات فك الرموز، مما يعود بالفائدة بدوره على إنتاج سياق حالة جديد أفضل لتحسين تحديد الموقع في النهاية. مقارنة بالطرق الموجودة حاليًا، يتمتع CG-STVG بمعلومات الجسم الواردة في الاستعلام النصي وإرشادات من السياق البصري المستخرج للحالة لتحقيق تحديد موقع أكثر دقة للمستهدف. في تجاربنا على ثلاثة مقاييس مرجعية، بما فيها HCSTVG-v1/v2 وVidSTG، حققت CG-STVG أفضل النتائج الجديدة في m_tIoU وm_vIoU على جميعها، مما يدل على فعاليتها. سيتم إطلاق الكود على الرابط https://github.com/HengLan/CGSTVG.