منذ 6 أشهر

الملخص

التحليل المرئي للكائنات المرجعية (R-VOS) هو مهمة متعددة الوسائط ناشئة تهدف إلى تحديد الكائن المستهدف المذكور في تعبير لغوي عبر جميع إطارات الفيديو. في هذا العمل، نقترح إطارًا بسيطًا وموحدًا مبنيًا على مُحول (Transformer)، يُسمى "ReferFormer". يُعامل التعبير اللغوي كاستفسارات ويُوجه مباشرة نحو المناطق الأكثر صلة في إطارات الفيديو. وبشكل محدد، نُدخل مجموعة صغيرة من استفسارات الكائنات المشروطة باللغة كمدخلات للمحول. بهذه الطريقة، تكون جميع الاستفسارات ملزمة بالعثور فقط على الكائنات المرجعية. وفي النهاية، يتم تحويل هذه الاستفسارات إلى نُوى ديناميكية تُلتقط المعلومات ذات الأهمية على مستوى الكائن، وتؤدي دور مرشحات تصفية توليد أقنعة التجزئة من خرائط الميزات. ويتم تحقيق تتبع الكائنات بشكل طبيعي من خلال ربط الاستفسارات المقابلة عبر الإطارات. يُبسط هذا المبدأ بشكل كبير عملية المعالجة، ويُميّز الإطار القائم على التعلم المتكامل عن الطرق السابقة بشكل كبير. أظهرت التجارب الواسعة على مجموعات بيانات Ref-Youtube-VOS وRef-DAVIS17 وA2D-Sentences وJHMDB-Sentences فعالية ReferFormer. على مجموعة Ref-Youtube-VOS، حقق ReferFormer أداءً بنسبة 55.6J&F باستخدام هيكل ResNet-50 دون أي إضافات، متفوقًا على أفضل الأداء السابق بفارق 8.4 نقطة. بالإضافة إلى ذلك، باستخدام هيكل Swin-Large القوي، حقق ReferFormer أفضل نتيجة J&F تبلغ 64.2 بين جميع الطرق الحالية. علاوة على ذلك، أظهر أداءً مُبهرًا بـ 55.0 mAP على A2D-Sentences و43.7 mAP على JHMDB-Sentences، متفوقًا بشكل كبير على الطرق السابقة. يُمكن الوصول إلى الكود مفتوح المصدر عبر الرابط: https://github.com/wjn922/ReferFormer.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار