HyperAIHyperAI

Command Palette

Search for a command to run...

VideoCLIP: التدريب المقارن للفهم الفوري بين الفيديو والنص

Hu Xu Gargi Ghosh Po-Yao Huang Dmytro Okhonko Armen Aghajanyan Florian Metze Luke Zettlemoyer Christoph Feichtenhofer

الملخص

نقدم VideoCLIP، وهي طريقة تباينية لتدريب نموذج موحد للفهم الفوري للمواد المرئية والنصوص دون استخدام أي تصنيفات في المهام اللاحقة. يقوم VideoCLIP بتدريب محول (transformer) للمواد المرئية والنصوص من خلال مقارنة أزواج الفيديو-النص الإيجابية التي تتداخل زمنيًا مع السلبيات الصعبة المستخرجة من البحث عن الجيران الأقرب. كشفت تجاربنا على سلسلة متنوعة من المهام اللاحقة، بما في ذلك استرجاع النص-الفيديو على مستوى التسلسل، وVideoQA، وتوصيف الأحداث على مستوى العلامات (token-level)، وتقسيم الأحداث، عن أداء يتفوق على أفضل ما تم تحقيقه سابقًا، حيث تفوقت على الأعمال السابقة وفي بعض الحالات حتى تجاوزت الأساليب الإشرافية. يمكن الوصول إلى الكود عبر الرابط:https://github.com/pytorch/fairseq/tree/main/examples/MMPT.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VideoCLIP: التدريب المقارن للفهم الفوري بين الفيديو والنص | مستندات | HyperAI