HyperAIHyperAI

Command Palette

Search for a command to run...

Console
منذ يوم واحد

MUVR: معيار استرجاع مقاطع فيديو غير منظفة متعددة الوسائط مع تطابق بصري متعدد المستويات

MUVR: معيار استرجاع مقاطع فيديو غير منظفة متعددة الوسائط مع تطابق بصري متعدد المستويات

الملخص

نُقدّم مهمة استرجاع مقاطع الفيديو غير المُقطّعة متعددة الوسائط (Multi-modal Untrimmed Video Retrieval)، إلى جانب معيار جديد (MUVR) يهدف إلى تعزيز تقنيات استرجاع الفيديو على منصات الفيديو الطويلة. يهدف MUVR إلى استرجاع مقاطع فيديو غير مُقطّعة تحتوي على أجزاء ذات صلة باستخدام استعلامات متعددة الوسائط. يتميز هذا المعيار بعدة خصائص رئيسية:1) نموذج عملي للاسترجاع: يدعم MUVR استعلامات متعددة الوسائط ذات مركزية الفيديو، حيث يتم التعبير عن احتياجات الاسترجاع الدقيقة من خلال وصفات نصية طويلة، وتحفيزات علامات الفيديو، وتحفيزات الأقنعة (mask prompts). كما يتبنى نموذج الاسترجاع من نوع واحد إلى العديد، ويتركز على مقاطع الفيديو غير المُقطّعة، مما يجعله مناسبًا بشكل خاص لتطبيقات منصات الفيديو الطويلة.2) تطابق بصري متعدد المستويات: لتشمل الفئات الشائعة لمقاطع الفيديو (مثل الأخبار، السفر، الرقص)، ولتحديد معايير التطابق بدقة، قمنا ببناء هيكل تطابق بصري متعدد المستويات يستند إلى المحتوى الأساسي للفيديو (مثل الأحداث الإخبارية، المواقع السياحية، الحركات الرقصية) التي يهتم بها المستخدمون ويرغبون في استرجاعها. ويغطي هذا الهيكل ستة مستويات: النسخة (copy)، الحدث (event)، المشهد (scene)، الحالة الفردية (instance)، الفعل (action)، والمستويات الأخرى.3) معايير تقييم شاملة: تم تطوير ثلاث إصدارات من MUVR (أي Base، Filter، QA). يُستخدم MUVR-Base وMUVR-Filter لتقييم نماذج استرجاع الفيديو، بينما يُستخدم MUVR-QA لتقييم النماذج الكبيرة متعددة الوسائط (MLLMs) بصيغة أسئلة وأجوبة. كما قمنا بطرح مؤشر إعادة الترتيب (Reranking Score) لتقييم قدرة النماذج الكبيرة متعددة الوسائط على إعادة ترتيب النتائج.يتكون MUVR من 53 ألف مقطع فيديو غير مُقطّع مستمدة من منصة الفيديو بيليبيلي (Bilibili)، مع 1050 استعلامًا متعدد الوسائط و84 ألف علاقة تطابق. وقد أُجريت تقييمات واسعة على ثلاث نماذج رائدة في استرجاع الفيديو، وستة نماذج مبنية على الصور (VLMs)، وعشرة نماذج MLLMs. أظهرت نتائج MUVR القيود الحالية لأساليب الاسترجاع في معالجة مقاطع الفيديو غير المُقطّعة والعبارات الاستعلامية متعددة الوسائط، فضلاً عن القيود التي تواجه النماذج الكبيرة متعددة الوسائط في فهم الفيديو متعدد المقاطع وإعادة ترتيب النتائج.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp