HyperAIHyperAI
منذ 2 أشهر

VideoCLIP: التدريب المقارن للفهم الفوري بين الفيديو والنص

Xu, Hu ; Ghosh, Gargi ; Huang, Po-Yao ; Okhonko, Dmytro ; Aghajanyan, Armen ; Metze, Florian ; Zettlemoyer, Luke ; Feichtenhofer, Christoph
VideoCLIP: التدريب المقارن للفهم الفوري بين الفيديو والنص
الملخص

نقدم VideoCLIP، وهي طريقة تباينية لتدريب نموذج موحد للفهم الفوري للمواد المرئية والنصوص دون استخدام أي تصنيفات في المهام اللاحقة. يقوم VideoCLIP بتدريب محول (transformer) للمواد المرئية والنصوص من خلال مقارنة أزواج الفيديو-النص الإيجابية التي تتداخل زمنيًا مع السلبيات الصعبة المستخرجة من البحث عن الجيران الأقرب. كشفت تجاربنا على سلسلة متنوعة من المهام اللاحقة، بما في ذلك استرجاع النص-الفيديو على مستوى التسلسل، وVideoQA، وتوصيف الأحداث على مستوى العلامات (token-level)، وتقسيم الأحداث، عن أداء يتفوق على أفضل ما تم تحقيقه سابقًا، حيث تفوقت على الأعمال السابقة وفي بعض الحالات حتى تجاوزت الأساليب الإشرافية. يمكن الوصول إلى الكود عبر الرابط:https://github.com/pytorch/fairseq/tree/main/examples/MMPT.