HyperAI

Spatio Temporal Video Grounding

تجميع الفيديو المكاني-الزماني هو مهمة تجمع بين رؤية الحاسوب ومعالجة اللغة الطبيعية، وتهدف إلى ربط الوصف النصي بمناطق أو لحظات مكاني-زمانية محددة في الفيديو، مما يساعد في تحديد الأجزاء التي تتوافق مع الاستعلام النصي أو الوصف المعطى. هذه المهمة ذات أهمية كبيرة للتطبيقات مثل تلخيص الفيديو، واسترجاع الفيديو بناءً على المحتوى، وتقديم عناوين للفيديو.