HyperAIHyperAI
منذ 11 أيام

الاستقطاب المُتعدد الوسائط للكائنات في الفيديو المُشار إليه من الطرف إلى الطرف باستخدام محولات متعددة الوسائط

Adam Botach, Evgenii Zheltonozhskii, Chaim Baskin
الاستقطاب المُتعدد الوسائط للكائنات في الفيديو المُشار إليه من الطرف إلى الطرف باستخدام محولات متعددة الوسائط
الملخص

يُعدّ مهارة فصل كائن الفيديو المرجعي (RVOS) مهمة متعددة الوسائط تتطلب فصل كائن مرجعي مذكور بالنص في الإطارات المختلفة لفيديو معطى. وبسبب الطبيعة المعقدة لهذه المهمة التي تدمج التفكير النصي، وفهم الفيديو، وفصل الكائنات، وتتبعها، فإن الطرق الحالية تعتمد عادةً على سلاسل معقدة من العمليات لمعالجة هذه المهمة. في هذه الورقة، نقترح نهجًا بسيطًا يستند إلى نموذج الترانسفورمر (Transformer) لحل مسألة RVOS. يُسمى إطارنا النموذجي "Transformer المُتعدد الوسائط للتتبع" (MTTR)، ونُعدّ مسألة RVOS مشكلة تنبؤ بالتسلسل. مستندًا إلى التطورات الحديثة في مجال رؤية الحاسوب والمعالجة اللغوية الطبيعية، يعتمد MTTR على الفكرة القائلة بأن يمكن معالجة الفيديو والنص معًا بشكل فعّال وأنيق من خلال نموذج واحد متعدد الوسائط من نوع الترانسفورمر. يتميز MTTR بأنه قابل للتدريب من النهاية إلى النهاية، ويعتمد على نموذج خالٍ من التحيّزات الاستنتاجية المرتبطة بالنص، ولا يتطلب خطوات ما بعد المعالجة لتحسين الأقنعة. وبذلك، يبسط بشكل كبير عملية RVOS مقارنة بالطرق السابقة. أظهرت النتائج المُقدّمة على معايير معيارية أن MTTR يتفوّق بشكل كبير على الأداء السابق في عدة مقاييس. وعلى وجه التحديد، حقق MTTR مكاسب ملحوظة تبلغ +5.7 و+5.0 في مقياس mAP على مجموعتي بيانات A2D-Sentences وJHMDB-Sentences على التوالي، مع معالجة 76 إطارًا في الثانية. علاوةً على ذلك، نُقدّم نتائج قوية على مجموعة التحقق العامة لـ Refer-YouTube-VOS، وهي مجموعة بيانات RVOS أكثر تحديًا لم تُلقَ بعد الاهتمام الكافي من الباحثين. يمكن إعادة إنتاج تجاربنا من خلال الكود المتوفر على الرابط: https://github.com/mttr2021/MTTR

الاستقطاب المُتعدد الوسائط للكائنات في الفيديو المُشار إليه من الطرف إلى الطرف باستخدام محولات متعددة الوسائط | أحدث الأوراق البحثية | HyperAI