استرجاع الفيديو جزئيًا

الطرق الحالية لاسترجاع الفيديو من النص (Text-to-Video Retrieval - T2VR) يتم تدريبها واختبارها على مجموعات بيانات موجهة لتسمية الفيديوهات مثل MSVD، MSR-VTT و VATEX. خاصية أساسية لهذه المجموعات هي أن الفيديوهات يُفترض أنها تم تقليمها زمنيًا مسبقًا وأن مدتها قصيرة، بينما تصف التسميات المعطاة جوهر محتوى الفيديو بشكل جيد. نتيجة لذلك، بالنسبة لمقطع فيديو وتسمية مقترنين معًا، يُفترض أن يكون الفيديو ذا صلة كاملة بالتسمية. ومع ذلك، في الواقع، نظرًا لأن الاستعلامات غير معروفة مسبقًا، قد لا تحتوي المقاطع المصقولة مسبقًا على محتوى كافٍ لتحقيق الاستعلام بالكامل. هذا يشير إلى وجود فجوة بين الأدبيات والعالم الحقيقي. لسد هذه الفجوة، نقترح في هذا البحث مهمة فرعية جديدة لـ T2VR تُعرف باسترجاع الفيديو الجزئي ذي الصلة (Partially Relevant Video Retrieval - PRVR). يعتبر الفيديو الغير مقلم جزئيًا ذا صلة بالنسبة لاستعلام نصي معين إذا احتوى على لحظة ذات صلة بالاستعلام. تهدف PRVR إلى استرجاع مثل هذه المقاطع الجزئية ذات الصلة من مجموعة كبيرة من مقاطع الفيديو الغير مقلمة. تختلف PRVR عن استرجاع اللحظة الواحدة من الفيديو واسترجاع اللحظة من مجموعة فيديوهات، حيث أن الأخيرين يستهدفان استرجاع اللحظات بدلاً من مقاطع الفيديو الغير مقلمة. نقوم بصياغة PRVR كمشكلة تعلم متعدد الحالات (Multiple Instance Learning - MIL)، حيث يتم النظر إلى الفيديو كحقيبة من مقاطع الفيديو وكحقيبة من الإطارات الزمنية للفيديو. تمثل المقاطع والإطارات محتوى الفيديو بمقياس زمني مختلف. نقترح شبكة تعلم الشبه متعددة المقياس (Multi-Scale Similarity Learning - MS-SL) التي تتعلم بشكل مشترك شبه المقاطع الزمنية وشبه الإطارات الزمنية لـ PRVR. أظهرت التجارب الواسعة على ثلاث مجموعات بيانات (TVR، ActivityNet Captions، و Charades-STA) جدوى الطريقة المقترحة. كما أظهرنا أن طريقتنا يمكن استخدامها لتحسين استرجاع اللحظة من مجموعة فيديوهات.