اكتشاف اللحظات مع الوعي بالخلفية لاسترجاع لحظات الفيديو

استرجاع لحظة الفيديو (VMR) يحدد لحظة محددة في فيديو غير مقصوص بناءً على استعلام بلغة طبيعية معطاة. تعتبر هذه المهمة عرضة للمشكلة الضعيفة للتوافق التي توجد بشكل طبيعي في مجموعات بيانات الفيديو. نظرًا للمبهمة، قد لا يغطي الاستعلام التفاصيل ذات الصلة باللحظة المقابلة بشكل كامل، أو قد تحتوي اللحظة على إطارات غير متناسقة وغير ذات صلة، مما قد يحد من زيادة الأداء أكثر. لمعالجة هذه المشكلة، نقترح محول اكتشاف اللحظات الواعي بالخلفية (BM-DETR). يتبنى نموذجنا نهجًا مقارنًا، حيث يستخدم بعناية الاستعلامات السلبية المطابقة للحظات أخرى في الفيديو. تحديدًا، يتعلم نموذجنا التنبؤ باللحظة المستهدفة من احتمالية مشتركة لكل إطار معطى الاستعلام الإيجابي وتعويض الاستعلامات السلبية. هذا يؤدي إلى استخدام فعال للخلفية المحيطة، مما يحسن حساسية اللحظات ويعزز التوافق الشامل في الفيديوهات. تظهر التجارب الواسعة على أربع معايير فعالية نهجنا. يمكن الحصول على كودنا من:\url{https://github.com/minjoong507/BM-DETR}