HyperAIHyperAI
منذ 11 أيام

إلى التمييز المتين للكائنات في الفيديو بالإشارة باستخدام التوافق العلاقات الدوري

Xiang Li, Jinglu Wang, Xiaohao Xu, Xiao Li, Bhiksha Raj, Yan Lu
إلى التمييز المتين للكائنات في الفيديو بالإشارة باستخدام التوافق العلاقات الدوري
الملخص

يُعدّ التمييز المرئي للأجسام بناءً على التعبير اللغوي (R-VOS) مهمة صعبة تهدف إلى تحديد كائن معين في مقطع فيديو بناءً على تعبير لغوي. تعتمد معظم الطرق الحالية لـ R-VOS على افتراض حرجة: أن الكائن المُشار إليه يجب أن يكون موجودًا فعليًا في الفيديو. يُطلق على هذا الافتراض، الذي نسميه "التوافق الدلالي"، غالبًا ما يُنتهك في السياقات الواقعية، حيث قد يُستخدم التعبير اللغوي للبحث في فيديوهات غير صحيحة. في هذا العمل، نُبرز الحاجة إلى نموذج مقاوم لـ R-VOS قادر على التعامل مع التناقضات الدلالية. وبناءً على ذلك، نقترح مهمة موسعة تُسمى R-VOS المقاوم، والتي تقبل إدخالات غير مزروعة من الفيديو والنص. نعالج هذه المشكلة من خلال نمذجة مشكلة R-VOS الأساسية ومشكلتها الثنائية (إعادة بناء النص) معًا. ونُدخل قيدًا دوريًا هيكليًا من النص إلى النص لتمييز التوافق الدلالي بين أزواج الفيديو والنص، ونفرضه في الأزواج الإيجابية، مما يحقق التوافيق متعددة الوسائط من خلال الأزواج الإيجابية والسالبة. يُعدّ القيد الهيكلي المُقدّم فعّالًا في معالجة التباين اللغوي، ويتجاوز القيود التي كانت تُعتمد عليها الطرق السابقة التي تعتمد على قيود نقطة واحدة. كما تم إنشاء مجموعة تقييم جديدة تُسمى R\textsuperscript{2}-Youtube-VOS لقياس مقاومة النموذج. يحقق نموذجنا أداءً متفوقًا على معايير R-VOS، وهي Ref-DAVIS17 وRef-Youtube-VOS، بالإضافة إلى مجموعة R\textsuperscript{2}-Youtube-VOS الخاصة بنا.

إلى التمييز المتين للكائنات في الفيديو بالإشارة باستخدام التوافق العلاقات الدوري | أحدث الأوراق البحثية | HyperAI