معرفة هدفك: يُحسّن نموذج الـ Transformer المُوجّه بالهدف من حيث التموضع الزمني والمكانية في الفيديو

لقد جذبت نموذج Transformer اهتمامًا متزايدًا في مجال التعرف على الحركة والتفاعل المكاني-الزمني (STVG)، نظرًا لبPipeline المتكاملة ونتائجها الواعدة. غالبًا ما تعتمد الأساليب الحالية القائمة على Transformer في STVG على مجموعة من استعلامات الكائنات (object queries)، التي تُهيأ بشكل بسيط باستخدام الصفر، ثم تتعلم تدريجيًا معلومات الموضع المستهدفة من خلال التفاعلات المتكررة مع السمات متعددة الوسائط، وذلك لتحقيق التوصيف المكاني والزمني. وعلى الرغم من بساطة هذا النهج، فإن استعلامات الكائنات الصفرية، بسبب غيابها لمؤشرات محددة للمستهدف، تجد صعوبة في استخلاص معلومات تمييزية من التفاعلات مع السمات متعددة الوسائط في السياقات المعقدة (مثل الحالات التي تحتوي على عناصر مشتتة أو تغطية جزئية)، مما يؤدي إلى تدهور الأداء.ولحل هذه المشكلة، نقدّم نموذجًا جديدًا يُسمى "Transformer المُستشعر بالهدف لـ STVG" (TA-STVG)، والذي يهدف إلى توليد استعلامات كائنات تكيفية من خلال استكشاف مؤشرات محددة بالهدف من زوج الفيديو-النص المعطى، بهدف تحسين أداء STVG. تكمن الفكرة الأساسية في اثنين من الوحدات البسيطة ولكن الفعّالة، وهما: أخذ العينات الزمنية الموجهة بالنص (TTS) والتفعيل المكاني المُستشعر بالسمات (ASA)، اللذان يعملان بشكل متسلسل. يركّز الأول على اختيار الإشارات الزمنية ذات الصلة بالهدف من الفيديو باستخدام المعلومات النصية الشاملة، بينما يهدف الثاني إلى استغلال مزيد من المعلومات البصرية الدقيقة للخصائص الخاصة بالكائن من خلال الإشارات الزمنية المُستشعرة بالهدف المُسبقة، والتي تُستخدم في تهيئة استعلامات الكائنات. بالمقارنة مع الطرق الحالية التي تعتمد على استعلامات مُهيأة بالصفر، فإن استعلامات الكائنات في TA-STVG تُولَّد مباشرة من زوج الفيديو-النص المعطى، مما يجعلها تحمل بشكل طبيعي مؤشرات محددة بالهدف، ما يمنحها مرونة تكيفية أفضل، وتُحسّن تفاعلها مع السمات متعددة الوسائط لاستخلاص معلومات أكثر تمييزًا، وبالتالي تحسين أداء STVG.في تجاربنا على ثلاث معايير (benchmarks)، حقق TA-STVG أداءً متميزًا على مستوى الحد الأقصى (state-of-the-art)، وتفوّق بشكل ملحوظ على النموذج الأساسي، مما يؤكد فعاليته.