HyperAIHyperAI

Command Palette

Search for a command to run...

اللغة كاستعلامات لتحليل الكائنات المرئية المرجعية

Jiannan Wu Yi Jiang Peize Sun Zehuan Yuan Ping Luo

الملخص

التحليل المرئي للكائنات المرجعية (R-VOS) هو مهمة متعددة الوسائط ناشئة تهدف إلى تحديد الكائن المستهدف المذكور في تعبير لغوي عبر جميع إطارات الفيديو. في هذا العمل، نقترح إطارًا بسيطًا وموحدًا مبنيًا على مُحول (Transformer)، يُسمى "ReferFormer". يُعامل التعبير اللغوي كاستفسارات ويُوجه مباشرة نحو المناطق الأكثر صلة في إطارات الفيديو. وبشكل محدد، نُدخل مجموعة صغيرة من استفسارات الكائنات المشروطة باللغة كمدخلات للمحول. بهذه الطريقة، تكون جميع الاستفسارات ملزمة بالعثور فقط على الكائنات المرجعية. وفي النهاية، يتم تحويل هذه الاستفسارات إلى نُوى ديناميكية تُلتقط المعلومات ذات الأهمية على مستوى الكائن، وتؤدي دور مرشحات تصفية توليد أقنعة التجزئة من خرائط الميزات. ويتم تحقيق تتبع الكائنات بشكل طبيعي من خلال ربط الاستفسارات المقابلة عبر الإطارات. يُبسط هذا المبدأ بشكل كبير عملية المعالجة، ويُميّز الإطار القائم على التعلم المتكامل عن الطرق السابقة بشكل كبير. أظهرت التجارب الواسعة على مجموعات بيانات Ref-Youtube-VOS وRef-DAVIS17 وA2D-Sentences وJHMDB-Sentences فعالية ReferFormer. على مجموعة Ref-Youtube-VOS، حقق ReferFormer أداءً بنسبة 55.6J&F باستخدام هيكل ResNet-50 دون أي إضافات، متفوقًا على أفضل الأداء السابق بفارق 8.4 نقطة. بالإضافة إلى ذلك، باستخدام هيكل Swin-Large القوي، حقق ReferFormer أفضل نتيجة J&F تبلغ 64.2 بين جميع الطرق الحالية. علاوة على ذلك، أظهر أداءً مُبهرًا بـ 55.0 mAP على A2D-Sentences و43.7 mAP على JHMDB-Sentences، متفوقًا بشكل كبير على الطرق السابقة. يُمكن الوصول إلى الكود مفتوح المصدر عبر الرابط: https://github.com/wjn922/ReferFormer.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp