HyperAIHyperAI
منذ 2 أشهر

فصل الأشياء في الفيديو باستخدام التعبيرات اللغوية المرجعية

Anna Khoreva; Anna Rohrbach; Bernt Schiele
فصل الأشياء في الفيديو باستخدام التعبيرات اللغوية المرجعية
الملخص

معظم طرق تقسيم الأشياء في الفيديو شبه المراقبة المتطورة تعتمد على قناع دقيق للبكسل لهدف معين مقدم للإطار الأول من الفيديو. ومع ذلك، فإن الحصول على قناع تقسيم تفصيلي هو أمر مكلف ومتطلب للوقت. في هذا البحث، نستكشف طريقة بديلة لتحديد هدف معين، وهي استخدام التعبيرات اللغوية الإشارية. بالإضافة إلى كونها طريقة أكثر عملية وطبيعة للفت الانتباه إلى هدف معين، يمكن أن يساعد استخدام المواصفات اللغوية في تجنب الانحراف وكذلك جعل النظام أكثر صلابة تجاه الديناميكيات المعقدة وتغيرات الشكل. استغلالًا للتقدم الحديث في نماذج التثبيت اللغوي المصممة للصور، نقترح نهجًا لتوسيع نطاق هذه النماذج إلى بيانات الفيديو، مما يضمن التوقعات المتزامنة زمنيًا. لتقييم طريقتنا، نضيف وصفًا لغويًا لأهداف الفيديو إلى مقاييس الأداء الشائعة لتقسيم الأشياء في الفيديو مثل DAVIS'16 وDAVIS'17. نظهر أن نهجنا الذي يتم إشرافه باللغة يؤدي بشكل مكافئ للطرق التي لديها إمكانية الوصول إلى قناع بكسلي دقيق للهدف على DAVIS'16 وهو تنافسي مع الطرق التي تستخدم العلامات الخفيفة على مجموعة البيانات الصعبة DAVIS'17.

فصل الأشياء في الفيديو باستخدام التعبيرات اللغوية المرجعية | أحدث الأوراق البحثية | HyperAI