HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم متعدد المستويات للتمثيل مع التماثل الدلالي لتقسيم كائنات الفيديو المرجعية

Jianbing Shen Ling Shao Xingping Dong Dongming Wu

الملخص

التحليل المرئي للكائنات المرجعي (RVOS) هو مهمة صعبة تُوجَّه باللغة، وتتطلب فهماً شاملاً للمعلومات الدلالية في كل من محتوى الفيديو والاستفسارات اللغوية لتنبؤ الكائنات. ومع ذلك، تعتمد الطرق الحالية على دمج متعدد الوسائط بمستوى فراغي يعتمد على الإطارات (frame-based). ويتسبب التقييد في تمثيل البصرية في حدوث تناقض بين الرؤية واللغة، مما يؤدي إلى نتائج تجزئة ضعيفة. ولحل هذه المشكلة، نقترح منهجاً جديداً لتعلم التمثيل متعدد المستويات، والذي يستكشف البنية المتأصلة في محتوى الفيديو لتوفير مجموعة من التمثيلات البصرية التمييزية، مما يمكّن من تحسين محاذاة الدلالة بين الرؤية واللغة بشكل أكثر فعالية. وبشكل محدد، نُدمج ملامح بصرية مختلفة وفقاً لمستوى الدقة البصرية، بما في ذلك المعلومات الطويلة الزمنية عبر عدة إطارات على مستوى الفيديو، والدلالات الفضائية داخل الإطار على مستوى الإطار، والخصائص المحسّنة المُوجّهة نحو الكائنات على مستوى الكائن. وباستخدام التمثيل البصري متعدد المستويات القوي، إلى جانب المحاذاة الديناميكية المُصممة بدقة، يمكن لنموذجنا إنتاج تمثيل قوي يُمكّن من التجزئة الدقيقة للكائنات في الفيديو. وقد أظهرت التجارب الواسعة على مجموعتي بيانات Refer-DAVIS_17 وRefer-YouTube-VOS أن نموذجنا يحقق أداءً متفوّقاً من حيث دقة التجزئة وسرعة الاستدلال.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التعلم متعدد المستويات للتمثيل مع التماثل الدلالي لتقسيم كائنات الفيديو المرجعية | مستندات | HyperAI