ال-Calibration المعتمدة على الارتباط للاستعلامات الزمنية في الفيديو

التوصيف الزمني هو تحديد اللحظات أو النقاط البارزة المحددة من فيديو يتوافق مع الوصف النصي. تتعامل الأساليب التقليدية للتوصيف الزمني مع جميع مقاطع الفيديو بالتساوي خلال عملية الترميز، بغض النظر عن صلتها الدلالية بالاستعلام النصي. لذلك، نقترح نموذج الكشف الموجه بالارتباط (Correlation-Guided DEtection TRansformer - CG-DETR)، مستكشفين تقديم أدلة لمقاطع الفيديو المرتبطة بالاستعلام ضمن الانتباه عبر الأنظمة المتعددة. أولاً، نصمم انتباهًا متقاطعًا متكيفًا مع رموز وهمية. تقوم الرموز الوهمية المشروطة بالاستعلام النصي بأخذ جزء من وزن الانتباه، مما يمنع مقاطع الفيديو غير ذات الصلة من التمثيل بواسطة الاستعلام النصي. ومع ذلك، لا ترث جميع الكلمات بشكل متساوٍ ارتباط الاستعلام النصي بمقاطع الفيديو. وبالتالي، نقوم بتوجيه خريطة الانتباه المتقاطع من خلال استدلال الارتباط الدقيق بين مقاطع الفيديو والكلمات. نمكّن هذا من خلال تعلم فضاء تمثيلي مشترك للمفاهيم العليا، أي على مستوى اللحظة والجملة، واستدلال ارتباط الكلمة-القطعة. أخيرًا، نستغل الخصائص الخاصة بكل لحظة وندمجها مع سياق كل فيديو لتشكيل كاشف بؤرة متكيف مع اللحظة. من خلال استغلال درجات المشاركة النصية في كل قطعة فيديو، يقوم بقياس دقة كل قطعة بشكل دقيق. حقق CG-DETR أفضل النتائج الحالية على مجموعة متنوعة من المقاييس للتوصيف الزمني. يمكن الوصول إلى الكود المصدر عبر الرابط: https://github.com/wjun0830/CGDETR.