STVGFormer: تأريخ الفيديو المكاني-الزماني مع فهم عابر للأنماط الثابتة-الديناميكية

في هذا التقرير الفني، نقدم حلنا لمهمة ترسيخ الفيديو المكاني-زماني المتمحورة حول الإنسان. نقترح إطارًا موجزًا وفعالًا يُسمى STVGFormer، والذي يُنمذج الارتباطات البصرية-اللغوية المكانية-الزمانية باستخدام فرع ثابت وفرع ديناميكي. يقوم الفرع الثابت بفهم متعدد الوسائط في الإطار الواحد ويتعلم تحديد موقع الكائن المستهدف مكانياً بناءً على مؤشرات بصرية داخل الإطار مثل مظهر الكائن. أما الفرع الديناميكي فيقوم بفهم متعدد الوسائط عبر إطارات متعددة. يتعلم التنبؤ بوقت بداية ونهاية اللحظة المستهدفة بناءً على مؤشرات بصرية ديناميكية مثل الحركات. تم تصميم كلا الفرعين الثابت والديناميكي كمتغيرات متعددة الوسائط. كما صممنا كتلة تفاعل ثابت-ديناميكي جديدة تمكن الفرعين من نقل المعلومات المفيدة والمكملة من أحدهما إلى الآخر، مما أثبت فعاليته في تحسين التوقعات في الحالات الصعبة. حققت الطريقة المقترحة نسبة vIoU بلغت 39.6٪ وفازت بالمركز الأول في المسار HC-STVG من تحدي Person in Context الرابع (4th Person in Context Challenge).