HyperAIHyperAI
منذ 2 أشهر

استراتيجية النمط الكامل لفصل كائن الفيديو

Ge-Peng Ji; Deng-Ping Fan; Keren Fu; Zhe Wu; Jianbing Shen; Ling Shao
استراتيجية النمط الكامل لفصل كائن الفيديو
الملخص

الطرق السابقة لتقسيم الأشياء في الفيديو تركز بشكل أساسي على استخدام حلول بسيطة بين المظهر والحركة، مما يحد من كفاءة التعاون بين الخصائص وفيما بين هذين الدليلين. في هذا العمل، ندرس استراتيجية شبكة ثنائية الاتجاه جديدة وكفؤة (FSNet) لمعالجة هذه المشكلة، من خلال النظر إلى مخطط قيد متبادل أفضل بين الحركة والمظهر عند استغلال الخصائص عبر الأوضاع من مرحلة الاندماج وفك التشفير. وبشكل خاص، نقدم وحدة الانتباه العلائقي عبر الأوضاع (RCAM) لتحقيق انتشار رسائل ثنائي الاتجاه عبر فضاءات التضمين الفرعية. لتحسين صلابة النموذج وتحديث الخصائص غير المتسقة من التضمينات المكانية-الزمانية، نستخدم وحدة التنقية ثنائية الاتجاه (BPM) بعد RCAM. أظهرت التجارب الواسعة على خمسة مقاييس شائعة أن شبكتنا FSNet صامدة أمام سيناريوهات مختلفة مثيرة للتحدي (مثل تشويش الحركة، الإخفاء) وتحقق أداءً مفضلاً مقابل التقنيات المتقدمة الحالية في كل من مهام تقسيم الأشياء في الفيديو واكتشاف الأشياء البارزة في الفيديو. المشروع متاح للعامة على الرابط: https://dpfan.net/FSNet.

استراتيجية النمط الكامل لفصل كائن الفيديو | أحدث الأوراق البحثية | HyperAI