HyperAIHyperAI
منذ 11 أيام

اللغة كاستعلامات لتحليل الكائنات المرئية المرجعية

Jiannan Wu, Yi Jiang, Peize Sun, Zehuan Yuan, Ping Luo
اللغة كاستعلامات لتحليل الكائنات المرئية المرجعية
الملخص

التحليل المرئي للكائنات المرجعية (R-VOS) هو مهمة متعددة الوسائط ناشئة تهدف إلى تحديد الكائن المستهدف المذكور في تعبير لغوي عبر جميع إطارات الفيديو. في هذا العمل، نقترح إطارًا بسيطًا وموحدًا مبنيًا على مُحول (Transformer)، يُسمى "ReferFormer". يُعامل التعبير اللغوي كاستفسارات ويُوجه مباشرة نحو المناطق الأكثر صلة في إطارات الفيديو. وبشكل محدد، نُدخل مجموعة صغيرة من استفسارات الكائنات المشروطة باللغة كمدخلات للمحول. بهذه الطريقة، تكون جميع الاستفسارات ملزمة بالعثور فقط على الكائنات المرجعية. وفي النهاية، يتم تحويل هذه الاستفسارات إلى نُوى ديناميكية تُلتقط المعلومات ذات الأهمية على مستوى الكائن، وتؤدي دور مرشحات تصفية توليد أقنعة التجزئة من خرائط الميزات. ويتم تحقيق تتبع الكائنات بشكل طبيعي من خلال ربط الاستفسارات المقابلة عبر الإطارات. يُبسط هذا المبدأ بشكل كبير عملية المعالجة، ويُميّز الإطار القائم على التعلم المتكامل عن الطرق السابقة بشكل كبير. أظهرت التجارب الواسعة على مجموعات بيانات Ref-Youtube-VOS وRef-DAVIS17 وA2D-Sentences وJHMDB-Sentences فعالية ReferFormer. على مجموعة Ref-Youtube-VOS، حقق ReferFormer أداءً بنسبة 55.6J&F باستخدام هيكل ResNet-50 دون أي إضافات، متفوقًا على أفضل الأداء السابق بفارق 8.4 نقطة. بالإضافة إلى ذلك، باستخدام هيكل Swin-Large القوي، حقق ReferFormer أفضل نتيجة J&F تبلغ 64.2 بين جميع الطرق الحالية. علاوة على ذلك، أظهر أداءً مُبهرًا بـ 55.0 mAP على A2D-Sentences و43.7 mAP على JHMDB-Sentences، متفوقًا بشكل كبير على الطرق السابقة. يُمكن الوصول إلى الكود مفتوح المصدر عبر الرابط: https://github.com/wjn922/ReferFormer.

اللغة كاستعلامات لتحليل الكائنات المرئية المرجعية | أحدث الأوراق البحثية | HyperAI