منذ 6 أشهر

الملخص

يتمثل任务 في تقسيم الكائنات في الفيديو باستخدام عبارات إشارية (التحفيز اللغوي لتقسيم الكائنات في الفيديو) في إنتاج أقنعة ثنائية للجسم الذي تشير إليه العبارة اللغوية، بالنظر إلى عبارة لغوية وفيديو معين. يدعي عملنا أن المعايير الموجودة حاليًا المستخدمة لهذا المهمة تتكون في الغالب من حالات بسيطة، حيث يمكن تحديد الكائن المُشير إليه باستخدام عبارات بسيطة. تعتمد تحليلاتنا على تصنيف جديد للعبارات في مجموعتي بيانات DAVIS-2017 وActor-Action إلى عبارات إشارية بسيطة وغير بسيطة، مع تسمية العبارات غير البسيطة بسبع فئات معنوية للعبارات الإشارية. نستفيد من هذه البيانات لتحليل نتائج نموذج RefVOS، وهو شبكة عصبية جديدة تحقق نتائج تنافسية في مهمة التحفيز اللغوي لتقسيم الصور، ونتائج متميزة على مستوى العالم في مهمة التحفيز اللغوي لتقسيم الكائنات في الفيديو. تشير دراستنا إلى أن التحديات الرئيسية لهذا المهمة مرتبطة بفهم الحركة والإجراءات الثابتة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار