كشف اللحظات والمشاهد البارزة في الفيديوهات عبر استعلامات اللغة الطبيعية

كشف اللحظات المخصصة والمشاهد البارزة من الفيديوهات استجابةً لاستفسارات المستخدمين باللغة الطبيعية (NL) يُعد موضوعًا مهمًا ولكن غير مُدرَس بشكل كافٍ. إحدى التحديات الرئيسية في هذا المجال تكمن في نقص البيانات المُعلَّمة. ولحل هذه المشكلة، نقدّم مجموعة البيانات المُسمّاة "QVHighlights" (المشاهد البارزة القائمة على الاستفسار). تتضمّن هذه المجموعة أكثر من 10,000 فيديو من يوتيوب، وتغطي طيفًا واسعًا من المواضيع، بدءًا من الأنشطة اليومية والسفر في مقاطع الفيديو التوثيقية (Vlogs) المتعلقة بالحياة اليومية، ووصولًا إلى الأنشطة الاجتماعية والسياسية في مقاطع الأخبار. تم تزويز كل فيديو في المجموعة بـ: (1) استفسار باللغة الطبيعية مكتوب بأسلوب حر من قبل إنسان، (2) اللحظات ذات الصلة في الفيديو بالنسبة لهذا الاستفسار، و(3) درجات مميزة (على مقياس من خمس نقاط) لجميع المقاطع ذات الصلة بالاستفسار. تتيح هذه التسميات الشاملة تطوير أنظمة وتقييمها للكشف عن اللحظات ذات الصلة، وكذلك عن المشاهد البارزة، استجابةً لاستفسارات متنوعة ومرنة من المستخدمين. كما نقدّم أيضًا نموذجًا أساسيًا قويًا لهذا المهمة، يُدعى "Moment-DETR"، وهو نموذج يعتمد على معمارية الترانسفورمر (encoder-decoder) ويرى استرجاع اللحظات كمشكلة تنبؤ مباشرة بمجموعة من اللحظات، حيث يأخذ تمثيلات الفيديو والسؤال المستخرج كمدخلات، ويُنبئ بتنسيق إحداثيات اللحظات ودرجات البارزة بشكل متكامل (end-to-end). وعلى الرغم من أن نموذجنا لا يستخدم أي معرفة مسبقة من البشر، إلا أننا نُظهر أنه يُنافس بشكل قوي مقارنةً بالهياكل المُصممة بدقة. وباستخدام التدريب الضعيف المُسبق باستخدام عناوين التعرف على الكلام (ASR)، يتفوّق Moment-DETR بشكل كبير على الطرق السابقة. وأخيرًا، نقدّم عدة تحليلات مُفصّلة (ablations) وتصاميم بصرية للنموذج Moment-DETR. وتُتاح بيانات المجموعة والكود مفتوحًا للجمهور عبر الرابط: https://github.com/jayleicn/moment_detr.