HyperAIHyperAI
منذ 2 أشهر

MeViS: معيار كبير لمقطع الفيديو مع التعبيرات الحركية

Ding, Henghui ; Liu, Chang ; He, Shuting ; Jiang, Xudong ; Loy, Chen Change
MeViS: معيار كبير لمقطع الفيديو مع التعبيرات الحركية
الملخص

يسعى هذا البحث إلى تحقيق تقسيم الفيديو بمساعدة تعبيرات الحركة، والذي يركز على تقسيم الأشياء في محتوى الفيديو بناءً على جملة تصف حركة هذه الأشياء. غالبًا ما تركز مجموعات البيانات الموجودة للأشياء المرجعية في الفيديو على الأشياء البارزة وتستخدم تعبيرات لغوية تحتوي على خصائص ثابتة زائدة قد تمكّن من تحديد الكائن المستهدف في إطار واحد فقط. هذه المجموعات تقلل من أهمية الحركة في محتوى الفيديو بالنسبة لتقسيم الأشياء المرجعية بالفيديو بمساعدة اللغة. لاستكشاف إمكانية استخدام تعبيرات الحركة لتثبيت وتقسيم الأشياء في الفيديوهات، نقترح مجموعة بيانات كبيرة تُسمى MeViS (تعبيرات الحركة في الفيديو)، والتي تحتوي على العديد من تعبيرات الحركة لتحديد الأشياء المستهدفة في بيئات معقدة. قمنا بتقييم 5 طرق موجودة لتقسيم الأشياء المرجعية بالفيديو (RVOS) وأجرينا مقارنة شاملة باستخدام مجموعة البيانات MeViS. أظهرت النتائج أن الطرق الحالية لـ RVOS لا تستطيع التعامل بشكل فعال مع تقسيم الفيديو بمساعدة تعبيرات الحركة. قمنا أيضًا بتحليل التحديات واقترحنا نهجًا أساسيًا لمجموعة البيانات المقترحة MeViS. هدف معيارنا هو توفير منصة تعزز تطوير خوارزميات تقسيم الفيديو بمساعدة اللغة التي تستفيد من تعبيرات الحركة كإشارة رئيسية لتقسيم الأشياء في مشاهد الفيديو المعقدة. تم إطلاق مجموعة البيانات المقترحة MeViS على الرابط https://henghuiding.github.io/MeViS.

MeViS: معيار كبير لمقطع الفيديو مع التعبيرات الحركية | أحدث الأوراق البحثية | HyperAI