HyperAIHyperAI

Command Palette

Search for a command to run...

استخدم ما لديك: استرجاع الفيديو باستخدام التمثيلات من الخبراء المتشاركين

Yang Liu* [email protected] Samuel Albanie* [email protected] Arsha Nagrani* [email protected] Andrew Zisserman [email protected]

الملخص

النمو السريع للفيديو على الإنترنت جعل البحث عن محتوى الفيديو باستخدام استعلامات اللغة الطبيعية تحديًا كبيرًا. تختلف الاستعلامات التي ينشئها البشر لمجموعات بيانات الفيديو "في البرية" بشكل كبير من حيث درجة الدقة، حيث تصف بعض الاستعلامات تفاصيل محددة مثل أسماء الشخصيات المشهورة، أو محتوى الكلام، أو النص الموجود على الشاشة. هدفنا هو ضغط المعلومات متعددة الوسائط والذات البعد العالي للغاية من الفيديوهات إلى تمثيل فيديو واحد ومكثف للبحث عن الفيديو باستخدام استعلامات نصية حرة، حيث تكون درجة الدقة غير محددة.لتحقيق هذا الهدف، نستغل المعرفة الموجودة في شكل التضمينات الدلالية المدربة مسبقًا والتي تشمل خصائص "عامة" مثل الحركة والمظهر وخصائص المشهد من المحتوى البصري. كما نستكشف استخدام مؤشرات أكثر "تحديدًا" من تقنيتي تحويل الصوت إلى نص (ASR) وتحويل الصور إلى نص (OCR)، اللتين تكونان متاحتين بشكل متقطع للفيديوهات، ونجد أن هذه الإشارات لا تزال صعبة الاستخدام بكفاءة للبحث. نقترح نموذج الخبراء المتشاركين لجمع المعلومات من هذه الخبراء المدربين مسبقًا المختلفين وتقييم نهجنا تجريبيًا على خمسة مقاييس للبحث: MSR-VTT، LSMDC، MSVD، DiDeMo، وActivityNet. يمكن العثور على الكود والبيانات في www.robots.ox.ac.uk/~vgg/research/collaborative-experts/. تحتوي هذه الورقة على تصحيح للنتائج التي تم الإبلاغ عنها في الإصدار السابق.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp