HyperAIHyperAI

Command Palette

Search for a command to run...

RefVOS: نظرة أعمق على التعبيرات الإشارية لتقسيم كائنات الفيديو

Miriam Bellver Carles Ventura Carina Silberer Ioannis Kazakos Jordi Torres Xavier Giro-i-Nieto

الملخص

يتمثل任务 في تقسيم الكائنات في الفيديو باستخدام عبارات إشارية (التحفيز اللغوي لتقسيم الكائنات في الفيديو) في إنتاج أقنعة ثنائية للجسم الذي تشير إليه العبارة اللغوية، بالنظر إلى عبارة لغوية وفيديو معين. يدعي عملنا أن المعايير الموجودة حاليًا المستخدمة لهذا المهمة تتكون في الغالب من حالات بسيطة، حيث يمكن تحديد الكائن المُشير إليه باستخدام عبارات بسيطة. تعتمد تحليلاتنا على تصنيف جديد للعبارات في مجموعتي بيانات DAVIS-2017 وActor-Action إلى عبارات إشارية بسيطة وغير بسيطة، مع تسمية العبارات غير البسيطة بسبع فئات معنوية للعبارات الإشارية. نستفيد من هذه البيانات لتحليل نتائج نموذج RefVOS، وهو شبكة عصبية جديدة تحقق نتائج تنافسية في مهمة التحفيز اللغوي لتقسيم الصور، ونتائج متميزة على مستوى العالم في مهمة التحفيز اللغوي لتقسيم الكائنات في الفيديو. تشير دراستنا إلى أن التحديات الرئيسية لهذا المهمة مرتبطة بفهم الحركة والإجراءات الثابتة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp