الوصف الدقيق والسريع للفيديو المضغوط

تتطلب الطرق الحالية لكتابة العناوين التوضيحية للفيديوهات عادةً أولاً أخذ عينات من إطارات الفيديو من الفيديو المُفكك، ثم تنفيذ عملية لاحقة (مثل استخراج الميزات و/أو تعلم نموذج الكتابة التوضيحية). في هذه العملية، قد يؤدي أخذ العينات اليدوية للإطارات إلى تجاهل معلومات مهمة في الفيديو، مما يقلل من الأداء. علاوةً على ذلك، قد يؤدي التكرار في المعلومات المأخوذة من الإطارات إلى انخفاض الكفاءة أثناء عملية التنبؤ بكتابة العناوين التوضيحية. ولحل هذه المشكلة، ندرس كتابة العناوين التوضيحية للفيديوهات من منظور مختلف في المجال المُكَوَّن، مما يوفر مزايا متعددة مقارنة بالمسار الحالي: 1) مقارنة بالإطارات الخام المستخرجة من الفيديو المُفكك، فإن الفيديو المُكَوَّن، المكوَّن من الإطارات من نوع I والمقاييس الحركية والاختلافات المتبقية، يتميز بتمييز عالٍ، مما يمكّننا من الاستفادة من الفيديو بالكامل في التعلم دون الحاجة إلى أخذ عينات يدوية، وذلك بفضل تصميم نموذج مخصص؛ 2) يصبح نموذج كتابة العناوين التوضيحية أكثر كفاءة في التنبؤ، نظرًا لمعالجة كمية أقل من المعلومات، وأقل تكرارًا. نقترح نموذجًا بسيطًا لكنه فعّال بالكامل (end-to-end) من نوع Transformer في المجال المُكَوَّن لكتابة العناوين التوضيحية للفيديوهات، مما يمكّن التعلم مباشرة من الفيديو المُكَوَّن لغرض الكتابة التوضيحية. ونُظهر أن حتى مع التصميم البسيط، يمكن لطرقنا تحقيق أداءً من الدرجة الأولى على مختلف المعايير، مع سرعة تشغيل تقارب ضعف السرعة لدى الطرق الحالية. يُمكن الاطلاع على الكود على الرابط: https://github.com/acherstyx/CoCap.