منذ 8 أشهر

الملخص

الطرق الحالية لاسترجاع الفيديو من النص (Text-to-Video Retrieval - T2VR) يتم تدريبها واختبارها على مجموعات بيانات موجهة لتسمية الفيديوهات مثل MSVD، MSR-VTT و VATEX. خاصية أساسية لهذه المجموعات هي أن الفيديوهات يُفترض أنها تم تقليمها زمنيًا مسبقًا وأن مدتها قصيرة، بينما تصف التسميات المعطاة جوهر محتوى الفيديو بشكل جيد. نتيجة لذلك، بالنسبة لمقطع فيديو وتسمية مقترنين معًا، يُفترض أن يكون الفيديو ذا صلة كاملة بالتسمية. ومع ذلك، في الواقع، نظرًا لأن الاستعلامات غير معروفة مسبقًا، قد لا تحتوي المقاطع المصقولة مسبقًا على محتوى كافٍ لتحقيق الاستعلام بالكامل. هذا يشير إلى وجود فجوة بين الأدبيات والعالم الحقيقي. لسد هذه الفجوة، نقترح في هذا البحث مهمة فرعية جديدة لـ T2VR تُعرف باسترجاع الفيديو الجزئي ذي الصلة (Partially Relevant Video Retrieval - PRVR). يعتبر الفيديو الغير مقلم جزئيًا ذا صلة بالنسبة لاستعلام نصي معين إذا احتوى على لحظة ذات صلة بالاستعلام. تهدف PRVR إلى استرجاع مثل هذه المقاطع الجزئية ذات الصلة من مجموعة كبيرة من مقاطع الفيديو الغير مقلمة. تختلف PRVR عن استرجاع اللحظة الواحدة من الفيديو واسترجاع اللحظة من مجموعة فيديوهات، حيث أن الأخيرين يستهدفان استرجاع اللحظات بدلاً من مقاطع الفيديو الغير مقلمة. نقوم بصياغة PRVR كمشكلة تعلم متعدد الحالات (Multiple Instance Learning - MIL)، حيث يتم النظر إلى الفيديو كحقيبة من مقاطع الفيديو وكحقيبة من الإطارات الزمنية للفيديو. تمثل المقاطع والإطارات محتوى الفيديو بمقياس زمني مختلف. نقترح شبكة تعلم الشبه متعددة المقياس (Multi-Scale Similarity Learning - MS-SL) التي تتعلم بشكل مشترك شبه المقاطع الزمنية وشبه الإطارات الزمنية لـ PRVR. أظهرت التجارب الواسعة على ثلاث مجموعات بيانات (TVR، ActivityNet Captions، و Charades-STA) جدوى الطريقة المقترحة. كما أظهرنا أن طريقتنا يمكن استخدامها لتحسين استرجاع اللحظة من مجموعة فيديوهات.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار