HyperAIHyperAI
منذ 11 أيام

QVHighlights: الكشف عن اللحظات والمشاهد البارزة في الفيديوهات عبر استفسارات بلغة طبيعية

Jie Lei, Tamara L. Berg, Mohit Bansal
QVHighlights: الكشف عن اللحظات والمشاهد البارزة في الفيديوهات عبر استفسارات بلغة طبيعية
الملخص

كشف اللحظات المخصصة والمشاهد البارزة من الفيديوهات استجابةً لاستفسارات المستخدم باللغة الطبيعية (NL) يُعد موضوعًا مهمًا لكنه لم يُدرس بشكل كافٍ. إحدى التحديات في متابعة هذا الاتجاه تكمن في نقص البيانات المُعلّمة. لمعالجة هذه المشكلة، نقدّم مجموعة البيانات المُسمّاة "QVHIGHLIGHTS" (الHighlights القائمة على الاستفسار). وتتكوّن هذه المجموعة من أكثر من 10,000 فيديو من يوتيوب، تغطي طيفًا واسعًا من المواضيع، بدءًا من الأنشطة اليومية والسفر في مقاطع الفيديو الحياتية (الفيديوهات التسجيلية)، ووصولًا إلى الأنشطة الاجتماعية والسياسية في مقاطع الأخبار. تم تزويز كل فيديو في هذه المجموعة بـ: (1) استفسار نصي حر مكتوب من قبل إنسان، (2) اللحظات ذات الصلة في الفيديو بالنسبة لهذا الاستفسار، و(3) درجات مكثّفة (على مقياس من خمس نقاط) لكل لقطات مرتبطة بالاستفسار. تتيح هذه التسمية الشاملة تطوير وتجريب أنظمة قادرة على اكتشاف اللحظات ذات الصلة والمشاهد البارزة استجابةً لاستفسارات متنوعة ومُتعددة الاستخدامات. كما نقدّم أيضًا نموذجًا أساسيًا قويًا لهذا المهمة، يُسمّى Moment-DETR، وهو نموذج يعتمد على معمارية الترانسفورمر (encoder-decoder) ويُعامل استرجاع اللحظات كمشكلة تنبؤ مباشرة بمجموعة من القيم، حيث يأخذ تمثيلات الفيديو والاستفسار المستخرجة كمدخلات ويُنبئ بتنسيق إحداثيات اللحظات ودرجات المكثّف بشكل متكامل (end-to-end). وعلى الرغم من أن نموذجنا لا يستخدم أي معرفة مسبقة من البشر، إلا أننا نُظهر أنه يُنافس بفعالية النماذج المُصممة بدقة عالية. وباستخدام التدريب الضعيف المُسبق (weakly supervised pretraining) مع عناوين التحويل الصوتي إلى نص (ASR)، يتفوّق MomentDETR بشكل كبير على الطرق السابقة. وأخيرًا، نقدّم عدة تحليلات تجريبية (ablations) وتصاميم مرئية لنموذج Moment-DETR. وتم إتاحة البيانات والكود للجمهور عبر الرابط التالي: https://github.com/jayleicn/moment_detr

QVHighlights: الكشف عن اللحظات والمشاهد البارزة في الفيديوهات عبر استفسارات بلغة طبيعية | أحدث الأوراق البحثية | HyperAI