HyperAIHyperAI
منذ 2 أشهر

استرجاع الفيديو المُحسَّن بالصوت باستخدام مُحاذاة الميزات المشروطة بالنص

Sarah Ibrahimi; Xiaohang Sun; Pichao Wang; Amanmeet Garg; Ashutosh Sanan; Mohamed Omar
استرجاع الفيديو المُحسَّن بالصوت باستخدام مُحاذاة الميزات المشروطة بالنص
الملخص

حققت أنظمة استرجاع الفيديو من النص تقدمًا كبيرًا مؤخرًا من خلال استخدام نماذج مسبقة التدريب تم تدريبها على أزواج صور-نصوص على نطاق واسع. ومع ذلك، فإن معظم الطرق الحديثة تركز بشكل أساسي على الوسائط المرئية بينما تتجاهل الإشارة الصوتية لهذه المهمة. رغم ذلك، فقد ساهمت تقدمة حديثة من قبل ECLIPSE في تحسين استرجاع الفيديو من النص على المدى الطويل من خلال تطوير تمثيل فيديو بصري-صوتي. ومع ذلك، فإن الهدف من مهمة استرجاع الفيديو من النص هو التقاط المعلومات الصوتية والمرئية المكملة ذات الصلة بالاستعلام النصي بدلاً من مجرد تحقيق تناسب أفضل بين الصوت والفيديو. لمعالجة هذه المشكلة، نقدم TEFAL (TExt-conditioned Feature ALignment)، وهو طريقة للتناسق المميزات المشروطة بالنص التي تنتج تمثيلات صوتية ومرئية مشروطة بالاستعلام النصي. بدلاً من استخدام كتلة انتباه بصرية-صوتية فقط، والتي قد تقمع المعلومات الصوتية ذات الصلة بالاستعلام النصي، يعتمد نهجنا على كتلتين مستقلتين للانتباه عبر الوسائط التي تمكن الاستعلام النصي من التركيز على التمثيلات الصوتية والمرئية بشكل منفصل. يتم إثبات فعالية الطريقة المقترحة في أربع مجموعات بيانات مرجعية تحتوي على صوت: MSR-VTT، LSMDC، VATEX، وCharades، حيث حققت أداءً أفضل بكفاءة أعلى باستمرار عبر الأربع مجموعات البيانات. يُعزى هذا إلى التمثيل الصوتي المشروط بالاستعلام النصي الإضافي والمعلومات المكملة التي يضيفها إلى التمثيل المرئي المشروط بالاستعلام النصي.

استرجاع الفيديو المُحسَّن بالصوت باستخدام مُحاذاة الميزات المشروطة بالنص | أحدث الأوراق البحثية | HyperAI