HyperAIHyperAI
منذ 11 أيام

تعلم الانتباه المتناظر بين الحركة والشكل للفصل البصري للجسم في الفيديو بدون تدريب مسبق

{Xiaoxing Zhang, Shuo Wang, Huchuan Lu, Jinqing Qi, Lu Zhang, Shu Yang}
تعلم الانتباه المتناظر بين الحركة والشكل للفصل البصري للجسم في الفيديو بدون تدريب مسبق
الملخص

كيفية تحقيق تفاعل فعّال بين معلومات المظهر والحركة لتكيّفها مع السيناريوهات المعقدة يُعدّ مسألة أساسية في تقسيم كائنات الفيديو القائم على التدفق دون تدريب مسبق (zero-shot). في هذا البحث، نقترح شبكة تعاون متعددة الوسائط مُتَعَلِّقة بالانتباه (AMC-Net) لاستخدام معلومات المظهر والحركة بشكل متجانس. وبشكل محدد، تقوم شبكة AMC-Net بدمج المعلومات القوية من السمات متعددة الوسائط وتعزز تعاونها عبر مرحلتين. أولاً، نقترح بوابة الانتباه المشترك بين الوسائط متعددة (MCG) على فروع المُشفر الثنائي (bilateral encoder)، حيث تُستخدم دالة بوابة لصياغة درجات الانتباه المشترك لموازنة المساهمات الناتجة عن السمات متعددة الوسائط وتقليل المعلومات الزائدة والمضللة. ثم، نقترح وحدة تصحيح الحركة (MCM) التي تعتمد على آلية انتباه بصري-حركي، وتُبنى بهدف تأكيد سمات الكائنات الأمامية من خلال دمج التوافق الزماني-المكاني بين إشارات المظهر والحركة. وقد أثبتت التجارب الواسعة على ثلاث مجموعات بيانات معيارية شهيرة وصعبة أن الشبكة المقترحة تتفوّق على الطرق الحديثة الأفضل في المجال، حتى عند التدريب باستخدام كميات أقل من البيانات.

تعلم الانتباه المتناظر بين الحركة والشكل للفصل البصري للجسم في الفيديو بدون تدريب مسبق | أحدث الأوراق البحثية | HyperAI