HyperAIHyperAI
منذ 2 أشهر

تمثيل الفيديو المعتمد على الاستعلام لاسترجاع اللحظات وكشف النقاط المهمة

WonJun Moon; Sangeek Hyun; SangUk Park; Dongchan Park; Jae-Pil Heo
تمثيل الفيديو المعتمد على الاستعلام لاسترجاع اللحظات وكشف النقاط المهمة
الملخص

في الآونة الأخيرة، أصبح استرجاع لحظات الفيديو وتحديد النقاط البارزة (MR/HD) محور اهتمام كبير مع زيادة الطلب على فهم الفيديو بشكل ملحوظ. الهدف الرئيسي لـ MR/HD هو تحديد اللحظة وتقييم مستوى المطابقة للقطات الفيديو، أي درجة الأهمية، بالنسبة للطلب النصي المعطى. رغم أن النماذج القائمة على الترانسفورمر التي ظهرت مؤخرًا حققت بعض التقدم، فقد وجدنا أن هذه الأساليب لا تستغل بشكل كامل المعلومات الواردة في الطلب المعطى. على سبيل المثال، قد يتم تجاهل العلاقة بين الطلب النصي ومحتويات الفيديو عند التنبؤ باللحظة ودرجة أهميتها.لحل هذه المشكلة، نقدم Query-Dependent DETR (QD-DETR)، وهو ترانسفورمر كشف مصمم خصيصًا لـ MR/HD. نظرًا لملاحظتنا الدور غير المهم للطلب المعطى في هياكل الترانسفورمر، يبدأ وحدة الترميز لدينا بطبقات انتباه متقاطع لتضمين سياق الطلب النصي بشكل صريح في تمثيل الفيديو. بعد ذلك، لتعزيز قدرة النموذج على استغلال معلومات الطلب، نقوم بتعديل أزواج الفيديو-الطلب لإنتاج أزواج غير ذات صلة. يتم تدريب مثل هذه الأزواج السلبية (غير ذات الصلة) لتحقيق درجات أهمية منخفضة، مما يشجع بدوره النموذج على تقدير المطابقة الدقيقة بين أزواج الطلب-الفيديو. وأخيرًا، نقدم محرك تنبؤ بالأهمية قابل للتكييف مع الإدخال والذي يحدد بشكل مرن معيار درجات الأهمية للأزواج الفيديو-الطلب المعطاة.دراساتنا الشاملة تؤكد أهمية بناء تمثيل يعتمد على الطلب لـ MR/HD. وبشكل خاص، فإن QD-DETR يتفوق على أفضل الأساليب الحالية في مجموعة بيانات QVHighlights وTVSum وCharades-STA. يمكن الحصول على الكود من موقع github.com/wjun0830/QD-DETR.

تمثيل الفيديو المعتمد على الاستعلام لاسترجاع اللحظات وكشف النقاط المهمة | أحدث الأوراق البحثية | HyperAI