التفاعل المكاني-الزمني المُتَّصل باللغة لتقسيم كائن الفيديو المرجعي

يهدف التمييز المرئي للكائنات المرجعية إلى التنبؤ بعلامات الكائنات ذات الصلة بعبارات لغوية طبيعية في مقاطع الفيديو. تعتمد الطرق السابقة إما على شبكات 3D ConvNets أو تدمج شبكات 2D ConvNets إضافية كمُشفرات لاستخراج ميزات مختلطة فضائية-زمنية. ومع ذلك، تعاني هذه الطرق من تداخل فضائي خاطئ أو تشويشات غير صحيحة ناتجة عن التفاعل الفضائي-الزمني المتأخر والضمني الذي يحدث في مرحلة التفكيك. ولحل هذه القيود، نقترح وحدة نقل مزدوجة مُرتبطة باللغة (LBDT) التي تستخدم اللغة كجسر وسيط لتنفيذ تفاعل فضائي-زمني صريح وقابل للتكيف في مرحلة التشفير مبكرًا. وبشكل محدد، يتم تنفيذ انتباه بين الوسائط عبر القنوات بين المشفر الزمني، والكلمات المرجعية، والمشفر المكاني لجمع ونقل معلومات الحركة والملامح ذات الصلة باللغة. علاوةً على ذلك، نقترح أيضًا وحدة تنشيط قنوات ثنائية (BCA) في مرحلة التفكيك لتصفية الضوضاء بشكل إضافي وتمييز الميزات المتسقة فضائيًا-زمنيًا من خلال تنشيط القنوات. تُظهر التجارب الواسعة أن طريقتنا تحقق أداءً جديدًا على مستوى الحد الأقصى في أربع معايير شهيرة، مع تحقيق مكاسب مطلقة في دقة التقييم (AP) بنسبة 6.8% و6.9% على معايير A2D Sentences وJ-HMDB Sentences على التوالي، مع استهلاك ما يقارب 7 أضعاف أقل من الحمل الحسابي.