HyperAIHyperAI

Command Palette

Search for a command to run...

مُشيرًا إلى متعددة الوسائط: نموذج مُحوّل زمني موحد لفصل كائنات الفيديو

Shilin Yan Renrui Zhang Ziyu Guo Wenchao Chen Wei Zhang Hongyang Li Yu Qiao Hao Dong Zhongjiang He Peng Gao

الملخص

في الآونة الأخيرة، لاقت تقنية فصل كائنات الفيديو (VOS) المرتبطة بإشارات متعددة الوسائط، مثل النص والصوت، اهتمامًا متزايدًا في كل من القطاع الصناعي والأكاديمي. يُعدّ التحدي الرئيسي في هذا المجال هو استكشاف التوافق الدلالي ضمن الوسائط المختلفة، والتواصل البصري بين الإطارات المختلفة. ومع ذلك، تعتمد الطرق الحالية على هياكل شبكات منفصلة لكل نوع من الوسائط، وتتجاهل التفاعل الزمني بين الإطارات باستخدام الإشارات المرجعية. في هذا البحث، نقترح مُنَظَّم MUTR، وهو نموذج مُوحَّد زمني متعدد الوسائط (Multi-modal Unified Temporal Transformer) مُصمم لفصل كائنات الفيديو المرجعية. وبشكلٍ مُبتكر، يُقدِّم MUTR إطارًا موحدًا لأول مرة، ويستخدم نموذجًا مشابهًا لنموذج DETR، ويُظهر قدرته على فصل كائنات الفيديو المحددة إما بالنص أو بالإشارة الصوتية. وبشكل مفصل، نُقدِّم استراتيجيتين لاستغلال العلاقات الزمنية بين الفيديو والإشارات متعددة الوسائط بشكل كامل. أولاً، في مرحلة التجميع الزمني منخفضة المستوى قبل دخول النموذج الطرفي (transformer)، نُمكّن الإشارات متعددة الوسائط من استخلاص ملامح بصرية متعددة المقاييس من الإطارات المتتالية للفيديو. وبهذا، يُزوَّد النص أو الصوت بمعرفة زمنية فعّالة، مما يعزز التوافق الدلالي بين الوسائط. ثانيًا، في مرحلة التفاعل الزمني عالية المستوى بعد النموذج الطرفي، نُنفّذ تبادلًا للخصائص بين الإطارات المختلفة لتمثيلات الكائنات المختلفة، مما يُسهم في تحسين التوافق بين الكائنات على طول الفيديو. وقد حقق MUTR تحسنًا بنسبة +4.2% و+8.7% في مؤشرات J&F على مجموعتي بيانات Ref-YouTube-VOS وAVSBench، اللتين تعتمدان على الإشارات النصية والصوتية على التوالي، مقارنة بأفضل الطرق الحالية، مما يُظهر أهمية نموذجنا في مجال فصل كائنات الفيديو متعدد الوسائط المُوحَّد. تم إصدار الشفرة المصدرية على الرابط: https://github.com/OpenGVLab/MUTR.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مُشيرًا إلى متعددة الوسائط: نموذج مُحوّل زمني موحد لفصل كائنات الفيديو | مستندات | HyperAI