Command Palette
Search for a command to run...
VideoCLIP: التدريب المقارن للفهم الفوري بين الفيديو والنص
VideoCLIP: التدريب المقارن للفهم الفوري بين الفيديو والنص
Hu Xu Gargi Ghosh Po-Yao Huang Dmytro Okhonko Armen Aghajanyan Florian Metze Luke Zettlemoyer Christoph Feichtenhofer
الملخص
نقدم VideoCLIP، وهي طريقة تباينية لتدريب نموذج موحد للفهم الفوري للمواد المرئية والنصوص دون استخدام أي تصنيفات في المهام اللاحقة. يقوم VideoCLIP بتدريب محول (transformer) للمواد المرئية والنصوص من خلال مقارنة أزواج الفيديو-النص الإيجابية التي تتداخل زمنيًا مع السلبيات الصعبة المستخرجة من البحث عن الجيران الأقرب. كشفت تجاربنا على سلسلة متنوعة من المهام اللاحقة، بما في ذلك استرجاع النص-الفيديو على مستوى التسلسل، وVideoQA، وتوصيف الأحداث على مستوى العلامات (token-level)، وتقسيم الأحداث، عن أداء يتفوق على أفضل ما تم تحقيقه سابقًا، حيث تفوقت على الأعمال السابقة وفي بعض الحالات حتى تجاوزت الأساليب الإشرافية. يمكن الوصول إلى الكود عبر الرابط:https://github.com/pytorch/fairseq/tree/main/examples/MMPT.