HyperAIHyperAI
منذ 11 أيام

مُشيرًا إلى متعددة الوسائط: نموذج مُحوّل زمني موحد لفصل كائنات الفيديو

Shilin Yan, Renrui Zhang, Ziyu Guo, Wenchao Chen, Wei Zhang, Hongyang Li, Yu Qiao, Hao Dong, Zhongjiang He, Peng Gao
مُشيرًا إلى متعددة الوسائط: نموذج مُحوّل زمني موحد لفصل كائنات الفيديو
الملخص

في الآونة الأخيرة، لاقت تقنية فصل كائنات الفيديو (VOS) المرتبطة بإشارات متعددة الوسائط، مثل النص والصوت، اهتمامًا متزايدًا في كل من القطاع الصناعي والأكاديمي. يُعدّ التحدي الرئيسي في هذا المجال هو استكشاف التوافق الدلالي ضمن الوسائط المختلفة، والتواصل البصري بين الإطارات المختلفة. ومع ذلك، تعتمد الطرق الحالية على هياكل شبكات منفصلة لكل نوع من الوسائط، وتتجاهل التفاعل الزمني بين الإطارات باستخدام الإشارات المرجعية. في هذا البحث، نقترح مُنَظَّم MUTR، وهو نموذج مُوحَّد زمني متعدد الوسائط (Multi-modal Unified Temporal Transformer) مُصمم لفصل كائنات الفيديو المرجعية. وبشكلٍ مُبتكر، يُقدِّم MUTR إطارًا موحدًا لأول مرة، ويستخدم نموذجًا مشابهًا لنموذج DETR، ويُظهر قدرته على فصل كائنات الفيديو المحددة إما بالنص أو بالإشارة الصوتية. وبشكل مفصل، نُقدِّم استراتيجيتين لاستغلال العلاقات الزمنية بين الفيديو والإشارات متعددة الوسائط بشكل كامل. أولاً، في مرحلة التجميع الزمني منخفضة المستوى قبل دخول النموذج الطرفي (transformer)، نُمكّن الإشارات متعددة الوسائط من استخلاص ملامح بصرية متعددة المقاييس من الإطارات المتتالية للفيديو. وبهذا، يُزوَّد النص أو الصوت بمعرفة زمنية فعّالة، مما يعزز التوافق الدلالي بين الوسائط. ثانيًا، في مرحلة التفاعل الزمني عالية المستوى بعد النموذج الطرفي، نُنفّذ تبادلًا للخصائص بين الإطارات المختلفة لتمثيلات الكائنات المختلفة، مما يُسهم في تحسين التوافق بين الكائنات على طول الفيديو. وقد حقق MUTR تحسنًا بنسبة +4.2% و+8.7% في مؤشرات J&F على مجموعتي بيانات Ref-YouTube-VOS وAVSBench، اللتين تعتمدان على الإشارات النصية والصوتية على التوالي، مقارنة بأفضل الطرق الحالية، مما يُظهر أهمية نموذجنا في مجال فصل كائنات الفيديو متعدد الوسائط المُوحَّد. تم إصدار الشفرة المصدرية على الرابط: https://github.com/OpenGVLab/MUTR.

مُشيرًا إلى متعددة الوسائط: نموذج مُحوّل زمني موحد لفصل كائنات الفيديو | أحدث الأوراق البحثية | HyperAI