HyperAIHyperAI
منذ 17 أيام

إعادة النظر في النمذجة الزمنية لنقل المعرفة من الصورة إلى الفيديو بناءً على CLIP

Ruyang Liu, Jingjia Huang, Ge Li, Jiashi Feng, Xinglong Wu, Thomas H. Li
إعادة النظر في النمذجة الزمنية لنقل المعرفة من الصورة إلى الفيديو بناءً على CLIP
الملخص

نموذجات التدريب المسبق للصور والنصوص، مثل CLIP، أظهرت معرفة متعددة الوسائط عامة ممتازة تم تعلّمها من أزواج بيانات صور ونصوص ضخمة، مما جذب اهتمامًا متزايدًا بفضل إمكاناتها في تحسين تعلم التمثيل البصري في المجال الفيديو. في هذه الورقة، وباستناد إلى نموذج CLIP، نعيد النظر في نمذجة الزمن في سياق نقل المعرفة من الصورة إلى الفيديو، وهو العنصر المحوري لتوسيع نماذج التدريب المسبق للصور والنصوص إلى المجال الفيديو. نلاحظ أن آليات نمذجة الزمن الحالية مصممة خصيصًا إما لمهام ذات أولوية للسياق ال semانتيكي العالي (مثل الاسترجاع) أو لمهام ذات أولوية للأنماط البصرية المنخفضة المستوى (مثل التعرف)، ولا تعمل بشكل جيد في الحالتين معًا في آنٍ واحد. تكمن الصعوبة الأساسية في نمذجة الاعتماد الزمني مع الاستفادة في آنٍ واحد من المعرفة عالية المستوى ومنخفض المستوى المتوفرة في نموذج CLIP. ولحل هذه المشكلة، نقدّم شبكة مساعدة مكانيّة-زمنية (STAN) — آلية نمذجة زمنية بسيطة وفعّالة تُمكّن نموذج CLIP من التوسع إلى مهام فيديو متنوعة. بشكل محدد، لتحقيق نقل المعرفة على المستويين العالي والمنخفض، تستخدم STAN بنية فرعية مكوّنة من وحدات مفكّكة مكانيًا وزمنيًا، مما يتيح تعميق السياق المكاني-الزمني لخصائص CLIP متعددة المستويات. قمنا بتقييم طريقتنا على مهام فيديو ممثلة بارزة: استرجاع الفيديو-النص والتعرف على الفيديو. وأظهرت التجارب الواسعة تفوق نموذجنا على أحدث الأساليب في مجموعة متنوعة من المجموعات البيانات، بما في ذلك MSR-VTT، DiDeMo، LSMDC، MSVD، Kinetics-400، وSomething-Something-V2. ستكون الشيفرة متاحة عبر الرابط: https://github.com/farewellthree/STAN