HyperAIHyperAI

Command Palette

Search for a command to run...

ال-Calibration المعتمدة على الارتباط للاستعلامات الزمنية في الفيديو

WonJun Moon; Sangeek Hyun; SuBeen Lee; Jae-Pil Heo

الملخص

التوصيف الزمني هو تحديد اللحظات أو النقاط البارزة المحددة من فيديو يتوافق مع الوصف النصي. تتعامل الأساليب التقليدية للتوصيف الزمني مع جميع مقاطع الفيديو بالتساوي خلال عملية الترميز، بغض النظر عن صلتها الدلالية بالاستعلام النصي. لذلك، نقترح نموذج الكشف الموجه بالارتباط (Correlation-Guided DEtection TRansformer - CG-DETR)، مستكشفين تقديم أدلة لمقاطع الفيديو المرتبطة بالاستعلام ضمن الانتباه عبر الأنظمة المتعددة. أولاً، نصمم انتباهًا متقاطعًا متكيفًا مع رموز وهمية. تقوم الرموز الوهمية المشروطة بالاستعلام النصي بأخذ جزء من وزن الانتباه، مما يمنع مقاطع الفيديو غير ذات الصلة من التمثيل بواسطة الاستعلام النصي. ومع ذلك، لا ترث جميع الكلمات بشكل متساوٍ ارتباط الاستعلام النصي بمقاطع الفيديو. وبالتالي، نقوم بتوجيه خريطة الانتباه المتقاطع من خلال استدلال الارتباط الدقيق بين مقاطع الفيديو والكلمات. نمكّن هذا من خلال تعلم فضاء تمثيلي مشترك للمفاهيم العليا، أي على مستوى اللحظة والجملة، واستدلال ارتباط الكلمة-القطعة. أخيرًا، نستغل الخصائص الخاصة بكل لحظة وندمجها مع سياق كل فيديو لتشكيل كاشف بؤرة متكيف مع اللحظة. من خلال استغلال درجات المشاركة النصية في كل قطعة فيديو، يقوم بقياس دقة كل قطعة بشكل دقيق. حقق CG-DETR أفضل النتائج الحالية على مجموعة متنوعة من المقاييس للتوصيف الزمني. يمكن الوصول إلى الكود المصدر عبر الرابط: https://github.com/wjun0830/CGDETR.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp