HyperAIHyperAI

Command Palette

Search for a command to run...

تمثيل الفيديو المعتمد على الاستعلام لاسترجاع اللحظات وكشف النقاط المهمة

WonJun Moon Sangeek Hyun SangUk Park Dongchan Park Jae-Pil Heo

الملخص

في الآونة الأخيرة، أصبح استرجاع لحظات الفيديو وتحديد النقاط البارزة (MR/HD) محور اهتمام كبير مع زيادة الطلب على فهم الفيديو بشكل ملحوظ. الهدف الرئيسي لـ MR/HD هو تحديد اللحظة وتقييم مستوى المطابقة للقطات الفيديو، أي درجة الأهمية، بالنسبة للطلب النصي المعطى. رغم أن النماذج القائمة على الترانسفورمر التي ظهرت مؤخرًا حققت بعض التقدم، فقد وجدنا أن هذه الأساليب لا تستغل بشكل كامل المعلومات الواردة في الطلب المعطى. على سبيل المثال، قد يتم تجاهل العلاقة بين الطلب النصي ومحتويات الفيديو عند التنبؤ باللحظة ودرجة أهميتها.لحل هذه المشكلة، نقدم Query-Dependent DETR (QD-DETR)، وهو ترانسفورمر كشف مصمم خصيصًا لـ MR/HD. نظرًا لملاحظتنا الدور غير المهم للطلب المعطى في هياكل الترانسفورمر، يبدأ وحدة الترميز لدينا بطبقات انتباه متقاطع لتضمين سياق الطلب النصي بشكل صريح في تمثيل الفيديو. بعد ذلك، لتعزيز قدرة النموذج على استغلال معلومات الطلب، نقوم بتعديل أزواج الفيديو-الطلب لإنتاج أزواج غير ذات صلة. يتم تدريب مثل هذه الأزواج السلبية (غير ذات الصلة) لتحقيق درجات أهمية منخفضة، مما يشجع بدوره النموذج على تقدير المطابقة الدقيقة بين أزواج الطلب-الفيديو. وأخيرًا، نقدم محرك تنبؤ بالأهمية قابل للتكييف مع الإدخال والذي يحدد بشكل مرن معيار درجات الأهمية للأزواج الفيديو-الطلب المعطاة.دراساتنا الشاملة تؤكد أهمية بناء تمثيل يعتمد على الطلب لـ MR/HD. وبشكل خاص، فإن QD-DETR يتفوق على أفضل الأساليب الحالية في مجموعة بيانات QVHighlights وTVSum وCharades-STA. يمكن الحصول على الكود من موقع github.com/wjun0830/QD-DETR.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تمثيل الفيديو المعتمد على الاستعلام لاسترجاع اللحظات وكشف النقاط المهمة | مستندات | HyperAI