استخدم ما لديك: استرجاع الفيديو باستخدام التمثيلات من الخبراء المتشاركين

النمو السريع للفيديو على الإنترنت جعل البحث عن محتوى الفيديو باستخدام استعلامات اللغة الطبيعية تحديًا كبيرًا. تختلف الاستعلامات التي ينشئها البشر لمجموعات بيانات الفيديو "في البرية" بشكل كبير من حيث درجة الدقة، حيث تصف بعض الاستعلامات تفاصيل محددة مثل أسماء الشخصيات المشهورة، أو محتوى الكلام، أو النص الموجود على الشاشة. هدفنا هو ضغط المعلومات متعددة الوسائط والذات البعد العالي للغاية من الفيديوهات إلى تمثيل فيديو واحد ومكثف للبحث عن الفيديو باستخدام استعلامات نصية حرة، حيث تكون درجة الدقة غير محددة.لتحقيق هذا الهدف، نستغل المعرفة الموجودة في شكل التضمينات الدلالية المدربة مسبقًا والتي تشمل خصائص "عامة" مثل الحركة والمظهر وخصائص المشهد من المحتوى البصري. كما نستكشف استخدام مؤشرات أكثر "تحديدًا" من تقنيتي تحويل الصوت إلى نص (ASR) وتحويل الصور إلى نص (OCR)، اللتين تكونان متاحتين بشكل متقطع للفيديوهات، ونجد أن هذه الإشارات لا تزال صعبة الاستخدام بكفاءة للبحث. نقترح نموذج الخبراء المتشاركين لجمع المعلومات من هذه الخبراء المدربين مسبقًا المختلفين وتقييم نهجنا تجريبيًا على خمسة مقاييس للبحث: MSR-VTT، LSMDC، MSVD، DiDeMo، وActivityNet. يمكن العثور على الكود والبيانات في www.robots.ox.ac.uk/~vgg/research/collaborative-experts/. تحتوي هذه الورقة على تصحيح للنتائج التي تم الإبلاغ عنها في الإصدار السابق.