HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم الانتباه المتناظر بين الحركة والشكل للفصل البصري للجسم في الفيديو بدون تدريب مسبق

Xiaoxing Zhang Shuo Wang Huchuan Lu Jinqing Qi Lu Zhang Shu Yang

الملخص

كيفية تحقيق تفاعل فعّال بين معلومات المظهر والحركة لتكيّفها مع السيناريوهات المعقدة يُعدّ مسألة أساسية في تقسيم كائنات الفيديو القائم على التدفق دون تدريب مسبق (zero-shot). في هذا البحث، نقترح شبكة تعاون متعددة الوسائط مُتَعَلِّقة بالانتباه (AMC-Net) لاستخدام معلومات المظهر والحركة بشكل متجانس. وبشكل محدد، تقوم شبكة AMC-Net بدمج المعلومات القوية من السمات متعددة الوسائط وتعزز تعاونها عبر مرحلتين. أولاً، نقترح بوابة الانتباه المشترك بين الوسائط متعددة (MCG) على فروع المُشفر الثنائي (bilateral encoder)، حيث تُستخدم دالة بوابة لصياغة درجات الانتباه المشترك لموازنة المساهمات الناتجة عن السمات متعددة الوسائط وتقليل المعلومات الزائدة والمضللة. ثم، نقترح وحدة تصحيح الحركة (MCM) التي تعتمد على آلية انتباه بصري-حركي، وتُبنى بهدف تأكيد سمات الكائنات الأمامية من خلال دمج التوافق الزماني-المكاني بين إشارات المظهر والحركة. وقد أثبتت التجارب الواسعة على ثلاث مجموعات بيانات معيارية شهيرة وصعبة أن الشبكة المقترحة تتفوّق على الطرق الحديثة الأفضل في المجال، حتى عند التدريب باستخدام كميات أقل من البيانات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp