HyperAIHyperAI

Command Palette

Search for a command to run...

فصل الأشياء في الفيديو باستخدام التعبيرات اللغوية المرجعية

Anna Khoreva Anna Rohrbach Bernt Schiele

الملخص

معظم طرق تقسيم الأشياء في الفيديو شبه المراقبة المتطورة تعتمد على قناع دقيق للبكسل لهدف معين مقدم للإطار الأول من الفيديو. ومع ذلك، فإن الحصول على قناع تقسيم تفصيلي هو أمر مكلف ومتطلب للوقت. في هذا البحث، نستكشف طريقة بديلة لتحديد هدف معين، وهي استخدام التعبيرات اللغوية الإشارية. بالإضافة إلى كونها طريقة أكثر عملية وطبيعة للفت الانتباه إلى هدف معين، يمكن أن يساعد استخدام المواصفات اللغوية في تجنب الانحراف وكذلك جعل النظام أكثر صلابة تجاه الديناميكيات المعقدة وتغيرات الشكل. استغلالًا للتقدم الحديث في نماذج التثبيت اللغوي المصممة للصور، نقترح نهجًا لتوسيع نطاق هذه النماذج إلى بيانات الفيديو، مما يضمن التوقعات المتزامنة زمنيًا. لتقييم طريقتنا، نضيف وصفًا لغويًا لأهداف الفيديو إلى مقاييس الأداء الشائعة لتقسيم الأشياء في الفيديو مثل DAVIS'16 وDAVIS'17. نظهر أن نهجنا الذي يتم إشرافه باللغة يؤدي بشكل مكافئ للطرق التي لديها إمكانية الوصول إلى قناع بكسلي دقيق للهدف على DAVIS'16 وهو تنافسي مع الطرق التي تستخدم العلامات الخفيفة على مجموعة البيانات الصعبة DAVIS'17.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp