HyperAIHyperAI

Command Palette

Search for a command to run...

مُحَوِّل متعدد الوسائط لاسترجاع الفيديو

Valentin Gabeur Chen Sun Karteek Alahari Cordelia Schmid

الملخص

تلعب مهمة استرجاع محتوى الفيديو المرتبط بالاستفسارات بلغة طبيعية دورًا حاسمًا في التعامل الفعّال مع مجموعات بيانات ضخمة تشمل الإنترنت. ومعظم الطرق الحالية لحل مشكلة استرجاع الفيديو بناءً على الوصف (caption-to-video retrieval) لا تستغل بالكامل الإشارات عبر الوسائط (cross-modal cues) الموجودة في الفيديو. علاوةً على ذلك، فإنها تجمّع السمات البصرية لكل إطار بطرق تفتقر إلى معلومات زمنية كافية أو تمامًا. في هذا البحث، نقدّم نموذجًا متعدد الوسائط من نوع المُحَوِّل (multi-modal transformer) لترميز الوسائط المختلفة في الفيديو بشكل مشترك، مما يمكّن كل وسائط من التركيز على الأخرى. كما يتم استخدام بنية المُحَوِّل لترميز ونمذجة المعلومات الزمنية. من جانب اللغة الطبيعية، نستعرض أفضل الممارسات لتحسين التكامل بين تمثيلات اللغة ونموذج المُحَوِّل متعدد الوسائط. يتيح هذا الإطار الجديد تحقيق نتائج رائدة على مستوى الحالة الحالية (state-of-the-art) في استرجاع الفيديو على ثلاث مجموعات بيانات. لمزيد من التفاصيل، يُرجى زيارة: http://thoth.inrialpes.fr/research/MMT.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مُحَوِّل متعدد الوسائط لاسترجاع الفيديو | مستندات | HyperAI