UniVTG: نحو توحيد التحديد الزمني للفيديو واللغة

تثبيت الفيديو الزمني (VTG)، الذي يهدف إلى تحديد المقاطع المستهدفة من الفيديوهات (مثل الفواصل المتتابعة أو اللقطات المنفصلة) وفقًا لاستعلامات اللغة المخصصة (مثل الجمل أو الكلمات)، يعتبر مهمًا جدًا للمتصفحين على وسائل التواصل الاجتماعي. معظم الطرق في هذا المجال تطور نماذج محددة للمهمة يتم تدريبها باستخدام علامات محددة للنوع، مثل استرجاع اللحظة (الفترة الزمنية) وكشف النقاط البارزة (منحنى الأهمية)، مما يحد من قدرتها على التعميم لأداء مهام VTG المختلفة والعلامات. في هذه الورقة البحثية، نقترح توحيد العلامات والمهمات المتنوعة لـ VTG، والتي أطلقنا عليها اسم UniVTG، في ثلاثة اتجاهات: أولاً، نعيد النظر في نطاق واسع من علامات VTG والمهمات ونحدد صيغة موحدة. بناءً على هذا، نطور خطط تصنيف البيانات لإنشاء إشراف زائف قابل للتوسع. ثانيًا، نطور نموذج تحديد فعال ومرن قادر على التعامل مع كل مهمة والاستفادة الكاملة من كل علامة. ثالثًا، بفضل الإطار الموحد، نتمكن من فتح التعلم الأولي للتحديد الزمني من العلامات المتنوعة ذات الحجم الكبير وتطوير قدرات تحديد أقوى مثل التحديد بدون تصوير (zero-shot grounding). تجارب واسعة النطاق على ثلاث مهمات (استرجاع اللحظة وكشف النقاط البارزة وتلخيص الفيديو) عبر سبعة مجموعات بيانات (QVHighlights وCharades-STA وTACoS وEgo4D وYouTube Highlights وTVSum وQFVS) تثبت فعالية وإمكانية التكيف ل إطار العمل المقترح. الرموز متاحة على https://github.com/showlab/UniVTG.