LD-DETR: محول فك التشفير الدائري للكشف عن اللحظات في الفيديو وتحديد النقاط المهمة

استرجاع اللحظات الفيديوية وكشف النقاط البارزة يهدفان إلى العثور على المحتوى المقابل في الفيديو بناءً على استعلام نصي. تستخدم النماذج الحالية عادةً طرق التعلم التضادية أولاً لتوحيد خصائص الفيديو والنص، ثم تقوم بدمج واستخراج المعلومات متعددة الوسائط، وأخيراً تستخدم مفكك الشفرة من نوع Transformer لفك شفرة المعلومات متعددة الوسائط. ومع ذلك، تواجه الأساليب الحالية عدة مشكلات: (1) تداخل المعلومات الدلالية بين العينات المختلفة في مجموعة البيانات يعيق أداء النموذج في توحيد الخصائص متعددة الوسائط؛ (2) لا تستطيع النماذج الحالية استخراج الخصائص المحلية للفيديو بكفاءة عالية؛ (3) لا يمكن لمفكك الشفرة من نوع Transformer المستخدم في النموذج الحالي فك شفرة الخصائص متعددة الوسائط بشكل كافٍ. لحل هذه المشكلات، اقترحنا نموذج LD-DETR لأهداف استرجاع اللحظات الفيديوية وكشف النقاط البارزة. وبشكل محدد، قمنا أولاً بتقريب مصفوفة التشابه إلى المصفوفة الهويوية لتخفيف تأثير المعلومات الدلالية المتداخلة. ثم صممنا طريقة تمكّن الطبقات الإدراكية من استخراج الخصائص المحلية متعددة الوسائط بكفاءة أكبر. وأخيراً، قمنا بإعادة إدخال نتيجة مفكك الشفرة من نوع Transformer إلى نفسه لفك شفرة المعلومات متعددة الوسائط بشكل كافٍ.تم تقييم LD-DETR على أربع مقاييس عامة وتنفيذ العديد من التجارب الموسعة لإثبات تفوق وفعالية نهجنا. حقق نموذجنا أفضل الأداء مقارنة بأحدث النماذج على مجموعات البيانات QVHighlight، Charades-STA و TACoS. يمكن الوصول إلى رمزنا البرمجي عبر الرابط: https://github.com/qingchen239/ld-detr.