HyperAIHyperAI

Command Palette

Search for a command to run...

MeViS: معيار كبير لمقطع الفيديو مع التعبيرات الحركية

Henghui Ding Chang Liu Shuting He Xudong Jiang Chen Change Loy

الملخص

يسعى هذا البحث إلى تحقيق تقسيم الفيديو بمساعدة تعبيرات الحركة، والذي يركز على تقسيم الأشياء في محتوى الفيديو بناءً على جملة تصف حركة هذه الأشياء. غالبًا ما تركز مجموعات البيانات الموجودة للأشياء المرجعية في الفيديو على الأشياء البارزة وتستخدم تعبيرات لغوية تحتوي على خصائص ثابتة زائدة قد تمكّن من تحديد الكائن المستهدف في إطار واحد فقط. هذه المجموعات تقلل من أهمية الحركة في محتوى الفيديو بالنسبة لتقسيم الأشياء المرجعية بالفيديو بمساعدة اللغة. لاستكشاف إمكانية استخدام تعبيرات الحركة لتثبيت وتقسيم الأشياء في الفيديوهات، نقترح مجموعة بيانات كبيرة تُسمى MeViS (تعبيرات الحركة في الفيديو)، والتي تحتوي على العديد من تعبيرات الحركة لتحديد الأشياء المستهدفة في بيئات معقدة. قمنا بتقييم 5 طرق موجودة لتقسيم الأشياء المرجعية بالفيديو (RVOS) وأجرينا مقارنة شاملة باستخدام مجموعة البيانات MeViS. أظهرت النتائج أن الطرق الحالية لـ RVOS لا تستطيع التعامل بشكل فعال مع تقسيم الفيديو بمساعدة تعبيرات الحركة. قمنا أيضًا بتحليل التحديات واقترحنا نهجًا أساسيًا لمجموعة البيانات المقترحة MeViS. هدف معيارنا هو توفير منصة تعزز تطوير خوارزميات تقسيم الفيديو بمساعدة اللغة التي تستفيد من تعبيرات الحركة كإشارة رئيسية لتقسيم الأشياء في مشاهد الفيديو المعقدة. تم إطلاق مجموعة البيانات المقترحة MeViS على الرابط https://henghuiding.github.io/MeViS.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp