منذ 8 أشهر

الملخص

استرجاع لحظة الفيديو (VMR) يحدد لحظة محددة في فيديو غير مقصوص بناءً على استعلام بلغة طبيعية معطاة. تعتبر هذه المهمة عرضة للمشكلة الضعيفة للتوافق التي توجد بشكل طبيعي في مجموعات بيانات الفيديو. نظرًا للمبهمة، قد لا يغطي الاستعلام التفاصيل ذات الصلة باللحظة المقابلة بشكل كامل، أو قد تحتوي اللحظة على إطارات غير متناسقة وغير ذات صلة، مما قد يحد من زيادة الأداء أكثر. لمعالجة هذه المشكلة، نقترح محول اكتشاف اللحظات الواعي بالخلفية (BM-DETR). يتبنى نموذجنا نهجًا مقارنًا، حيث يستخدم بعناية الاستعلامات السلبية المطابقة للحظات أخرى في الفيديو. تحديدًا، يتعلم نموذجنا التنبؤ باللحظة المستهدفة من احتمالية مشتركة لكل إطار معطى الاستعلام الإيجابي وتعويض الاستعلامات السلبية. هذا يؤدي إلى استخدام فعال للخلفية المحيطة، مما يحسن حساسية اللحظات ويعزز التوافق الشامل في الفيديوهات. تظهر التجارب الواسعة على أربع معايير فعالية نهجنا. يمكن الحصول على كودنا من:\url{https://github.com/minjoong507/BM-DETR}

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار