HyperAIHyperAI
منذ 17 أيام

التعلم متعدد المستويات للتمثيل مع التماثل الدلالي لتقسيم كائنات الفيديو المرجعية

{Jianbing Shen, Ling Shao, Xingping Dong, Dongming Wu}
التعلم متعدد المستويات للتمثيل مع التماثل الدلالي لتقسيم كائنات الفيديو المرجعية
الملخص

التحليل المرئي للكائنات المرجعي (RVOS) هو مهمة صعبة تُوجَّه باللغة، وتتطلب فهماً شاملاً للمعلومات الدلالية في كل من محتوى الفيديو والاستفسارات اللغوية لتنبؤ الكائنات. ومع ذلك، تعتمد الطرق الحالية على دمج متعدد الوسائط بمستوى فراغي يعتمد على الإطارات (frame-based). ويتسبب التقييد في تمثيل البصرية في حدوث تناقض بين الرؤية واللغة، مما يؤدي إلى نتائج تجزئة ضعيفة. ولحل هذه المشكلة، نقترح منهجاً جديداً لتعلم التمثيل متعدد المستويات، والذي يستكشف البنية المتأصلة في محتوى الفيديو لتوفير مجموعة من التمثيلات البصرية التمييزية، مما يمكّن من تحسين محاذاة الدلالة بين الرؤية واللغة بشكل أكثر فعالية. وبشكل محدد، نُدمج ملامح بصرية مختلفة وفقاً لمستوى الدقة البصرية، بما في ذلك المعلومات الطويلة الزمنية عبر عدة إطارات على مستوى الفيديو، والدلالات الفضائية داخل الإطار على مستوى الإطار، والخصائص المحسّنة المُوجّهة نحو الكائنات على مستوى الكائن. وباستخدام التمثيل البصري متعدد المستويات القوي، إلى جانب المحاذاة الديناميكية المُصممة بدقة، يمكن لنموذجنا إنتاج تمثيل قوي يُمكّن من التجزئة الدقيقة للكائنات في الفيديو. وقد أظهرت التجارب الواسعة على مجموعتي بيانات Refer-DAVIS_17 وRefer-YouTube-VOS أن نموذجنا يحقق أداءً متفوّقاً من حيث دقة التجزئة وسرعة الاستدلال.

التعلم متعدد المستويات للتمثيل مع التماثل الدلالي لتقسيم كائنات الفيديو المرجعية | أحدث الأوراق البحثية | HyperAI