تعلم الانتباه المتناظر بين الحركة والشكل للفصل البصري للجسم في الفيديو بدون تدريب مسبق

كيفية تحقيق تفاعل فعّال بين معلومات المظهر والحركة لتكيّفها مع السيناريوهات المعقدة يُعدّ مسألة أساسية في تقسيم كائنات الفيديو القائم على التدفق دون تدريب مسبق (zero-shot). في هذا البحث، نقترح شبكة تعاون متعددة الوسائط مُتَعَلِّقة بالانتباه (AMC-Net) لاستخدام معلومات المظهر والحركة بشكل متجانس. وبشكل محدد، تقوم شبكة AMC-Net بدمج المعلومات القوية من السمات متعددة الوسائط وتعزز تعاونها عبر مرحلتين. أولاً، نقترح بوابة الانتباه المشترك بين الوسائط متعددة (MCG) على فروع المُشفر الثنائي (bilateral encoder)، حيث تُستخدم دالة بوابة لصياغة درجات الانتباه المشترك لموازنة المساهمات الناتجة عن السمات متعددة الوسائط وتقليل المعلومات الزائدة والمضللة. ثم، نقترح وحدة تصحيح الحركة (MCM) التي تعتمد على آلية انتباه بصري-حركي، وتُبنى بهدف تأكيد سمات الكائنات الأمامية من خلال دمج التوافق الزماني-المكاني بين إشارات المظهر والحركة. وقد أثبتت التجارب الواسعة على ثلاث مجموعات بيانات معيارية شهيرة وصعبة أن الشبكة المقترحة تتفوّق على الطرق الحديثة الأفضل في المجال، حتى عند التدريب باستخدام كميات أقل من البيانات.